


IPrefacio: 


La asignatura es de naturaleza teorico - practica, tiene por objetivo 
que el estudiante de adquiera conocimientos sobre las 
tecnicas y metodologfas fundamentales en el 
desarrollo de sistemas expertos. El estudiante 
desarrollara todas las habilidades para el analisis y 
la aplicacion de diferentes metodos usados en los 
sistemas expertos En el campo de desarrollo de 
software, esta disciplina trasciende la actividad 
de la programacion. Asimismo, pueda desarrollar 
las habilidades pertinentes para evaluar, en 
cualquier ambito sistemico de las distintas areas 
de una empresa, incluye el analisis y el 
diseno de sistemas informaticos. 



Comprende cuatro Unidades de Aprendizaje: 

# Unidad I: Sistemas expertos basados en reglas. 

# Unidad II: Sistemas expertos basados en probabilidad. 

# Unidad III: Modelos probabilisticos y graficos. 

# Unidad IV: Propagacion exacta en redes probabilisticas. 




UN/. 




JD l 

E 


UNIVERSIDAD PRIVADA TELESUP 



'Estructura cCe Cos ContenidCos 


Sistemas Expertos 
Basados en Reglas 


Sistemas 
Expertos 
Basados en 
Probabilidad 


Modelos 

probabilisticos y 
graficos 


Propagation 
exacta en redes 
Probabilisticas 


Los Sistemas 
Expertos. 


Tipos de Sistemas 
Expertos. 


Sistemas Basados 
en Reglas. 


Control de la 
Coherencia. 


Conceptos 
Basicos de 
Probabilidad. 


La Base del 
Conocimiento. 


Algunos 
conceptos 
sobre grafos. 


I 


Tipos de 
Grafos 
Dirigidos. 


Construccion de 
Modelos 
Probabilisticos. 


Modelos definidos 
Graficamente I. 


J 


Modelos Definidos 
Graficamente II. 


\ 


Extensiones de Los 
Modelos Graficos. 


Propagacion de 
Evidencia. 


Metodos de 
Propagacion 
Aproximada. 


T 


Propagacion 
Simbolica de 
Evidencia. 


Aprendizaje en 
Redes 
Bayesianas. 



La competencia que el estudiante debe lograr al 
final de la asignatura es: 

“Desarrollar fortalecer y perfeccionar sus 
habilidades en las diferentes metodologias usadas 
en el analisis de sistemas expertos, a traves de 
actividades donde aplique diversas tecnicas y 


estrategias que le permitan resolver problemas”. 
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a) Presentation v contextualizacion 

Los temas que se tratan en la presente Unidad Tematica, tienen por finalidad que 
el estudiante conozca el reconocimiento de la voz y el de patrones, ciertos juegos 
(como el ajedrez o las damas), y sistemas altamente complejos de tipo 
determinista o estocastico, debian ser resueltos por personas. Sin embargo, el 
trabajo realizado en las ultimas decadas muestra que muchos de estos problemas 
pueden ser formulados y resueltos por maquinas basados en sistemas expertos. 

b) Competencia 

Aplica los fundamentos de los sistemas expertos basados en reglas para 
desarrollar los problemas que se presenten. 

c) Cqpacidades 

1 . Reconoce los sistemas expertos en diferentes sistemas informaticos y fisicos. 

2. Identifica las diferentes tecnicas y/ o tipos de los sistemas expertos. 

3. Aplica las tecnicas y herramientas de sistemas expertos basados en reglas. 

4. Implementa un control de coherencias en sistemas expertos. 

d) Attitudes 

S Presenta actitud proactiva para las soluciones de los sistemas expertos. 

■S Perseverancia en el desarrollo de los problemas de los sistemas expertos. 

e) Presentation de Ideas basitas v tontenido esentiales de la Unidad: 

La Unidad de Aprendizaje 01: Sistemas expertos basados en reglas 

comprende el desarrollo de los siguientes temas: 

TEMA 01 : Los Sistemas Expertos. 

TEMA 02: Tipos de Sistemas Expertos. 

TEMA 03: Sistemas Basados en Reglas. 

TEMA 04: Control de la Coherencia. 
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TEMA1 


Los 

gistemas 

Expertos 




Competencia: 

Reconocer los sistemas expertos en 
diferentes sistemas informaticos y fisicos. 








Uesarroiio de los Terms 




T^ma 01: L>os l>ist£mas 0xp£rtos 


El amplio campo que se conoce como inteligencia 
artificial (IA) trata de estos problemas, que en un 
principio parecian imposibles, intratables y diffciles de 
formular utilizando ordenadores. A. Barr y E. A. 

Feigenbaum, dos de los pioneros de la investigacion en 
(IA), definen esta como sigue: “La Inteligencia Artificial 
es la parte de la Ciencia que se ocupa del diseno de sistemas de computacion 
inteligentes, es decir, sistemas que exhiben las caracteristicas que asociamos a la 
inteligencia en el comportamiento humano que se refiere a la comprension del 

lenguaje, el aprendizaje, el razonamiento, la resolution de problemas, etc.” 





Hoy en dia, el campo de la IA engloba varias sub areas tales como los sistemas 
expertos, la demostracion automatica de teoremas, el juego automatico, el 
reconocimiento de la voz y de patrones, el procesamiento del lenguaje natural, la 
vision artificial, la robotica, las redes neuronales, etc. 

Este libro esta dedicado a los sistemas expertos. Aunque los sistemas expertos 
constituyen una de las areas de investigacion en el campo de la IA, la mayor parte de 
las restantes areas, si no todas, disponen de una componente de sistemas expertos 
formando parte de ellas. 



cQUE ES UN SISTEMA EXPERTO? 

Los sistemas expertos son maquinas que piensan y 
razonan como un experto lo haria en una cierta 
especialidad o campo. Por ejemplo, un sistema 
experto en diagnostico medico requerira como 
datos los smtomas del paciente, los resultados de 
analisis clfnicos y otros hechos relevantes, y, 
utilizando 'estos, buscarfa en una base de datos la information necesaria para poder 
identificar la correspondiente enfermedad. 
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Un Sistema Experto de verdad, no solo realiza las funciones tradicionales de manejar 
grandes cantidades de datos, sino que tambien manipula esos datos de forma tal que 
el resultado sea inteligible y tenga significado para responder a preguntas incluso no 
completamente especificadas. 

Aunque la anterior es todavfa una definition razonable de un sistema experto, han 
surgido desde entonces otras definiciones, debido al rapido desarrollo de la tecnologia. 


Sistema Experto: Un sistema experto puede definirse como un sistema informatico 
(hardware y software) que Simula a los expertos humanos en un area de 
especializacion dada. Como tal, un sistema experto debera ser capaz de procesar y 
memorizar information, aprender y razonar en situaciones deterministas e inciertas, 
comunicar con los hombres y/u otros sistemas expertos, tomar decisiones apropiadas, 
y explicar por que se han tornado tales decisiones. Se puede pensar tambien en un 
sistema experto como un consultor que puede suministrar ayuda a (o en algunos 
casos sustituir completamente) los expertos humanos con un grado razonable de 
fiabilidad. 


Durante la ultima decada se han desarrollado muy rapidamente numerosas 
aplicaciones de sistemas expertos a muchos campos. Durkin (1994) examina unos 
2,500 sistemas expertos y los clasifica por criterios, tales como areas de aplicacion, 
tareas realizadas, etc. Tal como puede verse en la Figura 1.1, la economia, la industria 
y la medicina continuan siendo los campos dominantes entre aquellos en los que se 
utilizan los sistemas expertos. La section siguiente muestra algunos ejemplos que 
motivan la aplicacion de los sistemas expertos en algunos de estos campos. 



FIGURA 1.1. Campos de aplicacion de los sistemas expertos. 
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Ejemplos llustrativos 

Los sistemas expertos tienen muchas aplicaciones. 

En esta seccion se dan unos pocos ejemplos 
ilustrativos del tipo de problemas que pueden 
resolverse mediante sistemas expertos. Otros 
ejemplos practicos se dan a lo largo del libro. 

Ejemplo de Transacciones bancarias: No hace 
mucho, para hacer una transaction bancaria, tal como depositar o sacar dinero de una 
cuenta, uno tenia que visitar el banco en horas de oficina. Hoy en dia, esas y otras 
muchas transacciones pueden realizarse en cualquier momento del dia o de la noche 
usando los cajeros automaticos que son ejemplos sencillos de sistemas expertos. De 
hecho, se pueden realizar estas transacciones desde casa comunicandose con el 
sistema experto mediante la linea telefonica. 



Ejemplo de Control de trafico: El control de trafico es una de las aplicaciones mas 
importantes de los sistemas expertos. No hace mucho tiempo, el flujo de trafico en las 
calles de una ciudad se controlaba mediante guardias de trafico que controlaban el 
mismo en las intersecciones. Hoy se utilizan sistemas expertos que operan 
automaticamente los semaforos y regulan el flujo del trafico en las calles de una 
ciudad y en los ferrocarriles. 

Ejemplo de Problemas de planificacion: Los sistemas expertos pueden utilizarse 
tambien para resolver problemas complicados de planificacion de forma que se 
optimicen ciertos objetivos como, por ejemplo, la organization y asignacion de aulas 
para la realization de examenes finales en una gran universidad, de forma tal que se 
logren los objetivos siguientes: 

1 . Eliminar las coincidencias de asignacion simultanea 
de aulas: Solo se puede realizar un examen en 
cada aula al mismo tiempo. 

2. Asientos suficientes: Un aula asignada para un 
examen debe tener al menos dos asientos por 
estudiante. 

3. Minimizar los conflictos temporales: Minimizar el 
numero de alumnos que tienen examenes 
coincidentes. 
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4. Eliminar la sobrecarga de trabajo: Ningun alumno debe tener mas de dos 
examenes en un periodo de 24 horas. 

5. Minimizar el numero de examenes realizados durante las tardes. 

Otros ejemplos de problemas de planificacion que pueden ser resueltos mediante 
sistemas expertos son la planificacion de doctores y enfermeras en un gran hospital, la 
planificacion en una gran factoria, y la planificacion de autobuses para las horas de 
congestion o de dias festivos. 

Ejemplo de diagnostico medico. Una de las aplicaciones mas importantes de los 
sistemas expertos tiene lugar en el campo medico, donde estos pueden ser utilizados 
para contestar a las siguientes preguntas: 

1. iComo se puede recoger, organizar, almacenar, poner al dia y recuperar la 
informacion medica (por ejemplo, registros de pacientes) de una forma eficiente y 
rapida? Por ejemplo, supongase que un doctor en un centra medico esta 
interesado en conocer informacion sobre una cierta enfermedad (E) y tres 
sintomas asociados (SI, S2, y S3). Se puede utilizar un sistema experto para 
buscar en la base de datos, extraer y organizar la informacion deseada. Esta 
informacion puede resumirse en tablas tales como la dada en la Tabla 1.1 o en 
graficos como el de la Figura 1 .2. 

2. ^Como se puede aprender de la experiencia? Es decir, como se actualiza el 
conocimiento de los doctores en medicina cuando el numero de pacientes que 
estos tratan aumenta? 


3. Supuesto que un paciente presenta un conjunto de sintomas, ^como se decide 
que enfermedad es la que mas probablemente tiene el paciente? 

4. ^Cuales son las relaciones entre un conjunto (normalmente no observable) de 
enfermedades y un conjunto (observable) de sintomas? En otras palabras, ^que 
modelos pueden utilizarse para describir las relaciones entre los sintomas y las 
enfermedades? 

5. Dado que el conjunto de sintomas conocidos no es suficiente para diagnosticar la 
enfermedad con cierto grado de certeza, £que informacion adicional debe ser 
obtenida (por ejemplo, £que sintomas adicionales deben ser identificados? o £que 
pruebas medicas deben realizarse?). 
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6. iCual es el valor de cada una de 'estas piezas de informacion? En otras palabras, 
icual es la contribucion de cada uno de los sfntomas adicionales o pruebas a la 
toma de decision? 


Ejemplo de Agentes secretos. Alberto, Luisa, Carme 
n, y Tomas son agentes secretos, cada uno esta en uno 
de los cuatro paises: Egipto, Francia, Japon y Espana. 

No se sabe donde esta cada uno de ellos. Por tanto, se 
ha pedido informacion y se han recibido los cuatro 
telegramas siguientes: 

♦♦♦ Desde Francia: Luisa esta en Espana. 

♦♦♦ Desde Espana: Alberto esta en Francia. 

♦♦♦ Desde Egipto: Carmen esta en Egipto. 

♦♦♦ Desde Japon: Carmen esta en Francia. 

No se sabe quien es el que ha mandado cada uno de los mensajes, pero se sabe que 
Tomas miente (<j,un agente doble?) y que los demas agentes dicen la verdad. 
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TAB LA 1.1. Una representation tabular de la distribucion de frecuencias de una 
enfermedad (D) y tres smtomas binarios (SI, S2, y S3) en una base de datos medica 
( 1 representa la presencia y 0 representa la ausencia de la enfermedad o el smtoma 
indicado). 


cPOR QUE LOS SISTEMAS EXPERTOS? 

El desarrollo o la adquisicion de un sistema experto es 
generalmente caro, pero el mantenimiento y el coste 
marginal de su uso repetido es relativamente bajo. Por otra 
parte, la ganancia en terminos monetarios, tiempo, y 
precision resultantes del uso de los sistemas expertos son 
muy altas, y la amortizacion es muy rapida. Sin embargo, 
antes de desarrollar o adquirir un sistema experto debe realizarse un analisis de 
factibilidad y de coste-beneficio. 

Hay varias razones para utilizar sistemas expertos. Las mas importantes son: 

1. Con la ayuda de un sistema experto, personal con poca experiencia puede 
resolver problemas que requieren un conocimiento de experto. Esto es tambien 
importante en casos en los que hay pocos expertos humanos. Ademas, el numero 
de personas con acceso al conocimiento aumenta con el uso de sistemas 
expertos. 



2. El conocimiento de varios expertos humanos puede 
combinarse, lo que da lugar a sistemas expertos mas 
fiables, ya que se obtiene un sistema experto que 
combina la sabiduria colectiva de varios expertos 
humanos en lugar de la de uno solo. 

3. Los sistemas expertos pueden responder a preguntas 
y resolver problemas mucho mas rapidamente que un 
experto humano. Por ello, los sistemas son muy valiosos en casos en los que el 
tiempo de respuesta es critico. 



4. En algunos casos, la complejidad del problema impide al experto humano 
resolverlo. En otros casos la solucion de los expertos humanos no es fiable. 
Debido a la capacidad de los ordenadores de procesar un elevadfsimo numero de 
operaciones complejas de forma rapida y aproximada, los sistemas expertos 
suministran respuestas rapidas y fiables en situaciones en las que los expertos 
humanos no pueden. 

5. Los sistemas expertos pueden ser utilizados para realizar operaciones 
monotonas, aburridas e inconfortables para los humanos. En verdad, los sistemas 
expertos pueden ser la 'unica solucion viable en una situacion en la que la tarea a 
realizar desborda al ser humano (por ejemplo, un avion o una capsula espacial 
dirigida por un sistema experto). 


6. Se pueden obtener enormes ahorros mediante el uso de sistemas expertos. El 
uso de los sistemas expertos se recomienda especialmente en las situaciones 
siguientes: 

7. Cuando el conocimiento es diffcil de adquirir o se basa en reglas que solo pueden 
ser aprendidas de la experiencia. 

8. Cuando la mejora continua del conocimiento es esencial y/o cuando el problema 
esta sujeto a reglas o codigos cambiantes. 

9. Cuando los expertos humanos son caros o diffciles de encontrar. 

10. Cuando el conocimiento de los usuarios sobre el tema es limitado. 



Tipos 

de 

gistemas 

Expertos 


TEMA2 




Competencia: 

Identificar las diferentes tecnicas y / o tipos 
de los sistemas expertos. 






►J Tpma 02: Tipos d£ !>ist£mas 0xp£rtos 


Los problemas con los que pueden tratar los sistemas 
expertos pueden clasificarse en dos tipos: problemas 
esencialmente deterministas y problemas esencialmente 
estocasticos. Consecuentemente, los sistemas expertos 
pueden clasificarse en dos tipos principales segun la 
naturaleza de problemas para los que estan disenados: 
deterministas y estocasticos. Los problemas de tipo determinista pueden ser 
formulados usando un conjunto de reglas que relacionen varios objetos bien definidos. 
Los sistemas expertos que tratan problemas deterministas son conocidos como 
sistemas basados en reglas, porque sacan sus conclusiones basandose en un 
conjunto de reglas utilizando un mecanismo de razonamiento logico. 


En situaciones inciertas, es necesario introducir algunos medios para tratar la 
incertidumbre. Por ejemplo, algunos sistemas expertos usan la misma estructura de 
los sistemas basados en reglas, pero introducen una medida asociada a la 
incertidumbre de las reglas y a la de sus premisas. 

En este caso se pueden utilizar algunas formulas de propagacion para calcular la 
incertidumbre asociada a las conclusiones. Durante las ultimas decadas han sido 
propuestas algunas medidas de incertidumbre. 




Algunos ejemplos de estas medidas son los factores de 
certeza, usados en las conchas para generar sistemas 
expertos tales como el sistema experto MYCIN; la logica 
difusa y la teoria de la evidencia de Dempster y Shafer. 

Otra medida intuitiva de incertidumbre es la probabilidad, en 
la que la distribucion conjunta de un conjunto de variables se 
usa para describir las relaciones de dependencia entre ellas, y se 
sacan conclusiones usando formulas muy conocidas de la teoria de la 


probabilidad. 
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Este es el caso del sistema experto PROSPECTOR, que utiliza el teorema de Bayes 
para la exploracion de mineral. Los sistemas expertos que utilizan la probabilidad 
como medida de incertidumbre se conocen como sistemas expertos probabilfsticos y 
la estrategia de razonamiento que usan se conoce como razonamiento probabilistico, 
o inferencia probabilfstica. Este libro esta dedicado a los sistemas expertos de tipo 
probabilistico. 


En los comienzos de los sistemas expertos de tipo probabilistico surgieron varios 
obstaculos, debido a las dificultades encontradas para definir la distribucion de 
probabilidad conjunta de las variables. Elio ha ralentizado su desarrollo. Con la 
introduccion de los modelos de redes probabilfsticas, estos obstaculos se han 
superado y los sistemas expertos probabilfsticos han vuelto de forma espectacular 
durante las dos ultimas decadas. 



Estos modelos, que incluyen las redes de Markov y las Bayesianas, se basan en una 

representacion grafica de las relaciones entre las variables. Esta representacion 

conduce no solo a formas mas eficientes de definir la distribucion conjunta de 

probabilidad sino tambien a una propagation de incertidumbre muy eficiente, que 

permite sacar conclusiones. Componentes de un Sistema Experto Las definiciones de 

sistemas expertos dadas se entienden mejor cuando se examinan las principales 

componentes de los sistemas expertos. Estas componentes se muestran 

esquematicamente en la Figura 1.3 y se explican seguidamente. 
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Figura 1.3 Componentes tipicos de un sistema experto. 
Componente Humano 


Un sistema experto es generalmente el resultado de la colaboracion de uno o varios 
expertos humanos especialistas en el tema de estudio y los ingenieros del 
conocimiento, con los usuarios en mente. Los expertos humanos suministran el 
conocimiento basico en el tema de interes, y los ingenieros del conocimiento trasladan 
este conocimiento a un lenguaje, que el sistema experto pueda entender. La 
colaboracion de los expertos humanos, los ingenieros del conocimiento y los usuarios 
es, quizas, el elemento mas importante en el desarrollo de un sistema experto. Esta 
etapa requiere una enorme dedicacion y un gran esfuerzo debido a los diferentes 
lenguajes que hablan las distintas partes y a las diferentes experiencias que tienen. 
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LA BASE DE CONOCIMIENTO 

Los especialistas son responsables de suministrar a los ingenieros del conocimiento 
una base de conocimiento ordenada y estructurada, y un conjunto de relaciones bien | 
definidas y explicadas. Esta forma estructurada de pensar requiere que los expertos 
humanos repiensen, reorganicen, y reestructuren la base de conocimiento y, como j 
resultado, el especialista se convierte en un mejor conocedor de su propio campo de 
especialidad. Hay que diferenciar entre datos y conocimiento. El conocimiento se 
refiere a afirmaciones de validez general tales como reglas, distribuciones de 
probabilidad, etc. Los datos se refieren a la informacion relacionada con una aplicacion 
particular. 


Por ejemplo, en diagnostico medico, los sintomas, las enfermedades y las relaciones 
entre ellos, forman parte del conocimiento, mientras los sintomas particulares de un 
paciente dado forman parte de los datos. Mientras el conocimiento es permanente, los 
datos son efimeros, es decir, no forman parte de la componente permanente de un 
sistema y son destruidos despues de usarlos. El conocimiento se almacena en la base 
de Conocimiento y los datos se almacenan en la memoria de trabajo. Todos los H 
Procedimientos de los diferentes sistemas y subsistemas que son de caracter j 
transitorio se almacenan tambien en la memoria de trabajo. 


SUBSISTEMA DE ADQUISICibN DE CONOCIMIENTO 


El subsistema de adquisicion de conocimiento controla el flujo del nuevo conocimiento 
que fluye del experto humano a la base de datos. El sistema determina que nuevo 
■ conocimiento se necesita, o si el conocimiento recibido es en realidad nuevo, es decir, 
si debe incluirse en la base de datos y, en caso necesario, incorpora estos 
conocimientos a la misma. 

Control de la Coherencia 

El subsistema de control de la coherencia ha aparecido en los sistemas expertos muy 
recientemente. Sin embargo, es una componente esencial de un sistema experto. Este 
1 subsistema controla la consistencia de la base de datos y evita que unidades de 
. conocimiento inconsistentes entren en la misma. En situaciones complejas incluso un 
experto humano puede formular afirmaciones inconsistentes. 
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t 
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Por ello, sin un subsistema de control de la coherencia, unidades 
de conocimiento contradictorio pueden formar parte de la base de 
conocimiento, dando lugar a un comportamiento insatisfactorio del 
sistema. Es tambien bastante comun, especialmente en sistemas 
con mecanismos de propagacion de incertidumbre, que se llegue a 
conclusiones absurdas o en conflicto como, por ejemplo, 
situaciones en las que el sistema genera probabilidades mayores 
que la unidad o negativas. Por ello, el subsistema de control de la coherencia 
comprueba e informa a los expertos de las inconsistencias. Por otra parte, cuando se 
solicita informacion de los expertos humanos, este subsistema informa sobre las 
restricciones que esta debe cumplir para ser coherente con la existente en la base de 
conocimiento. De esta forma, ayuda a los expertos humanos a dar informacion fiable. 



MOTOR DE INFERENCIA 

El motor de inferencia es el corazon de todo sistema experto. El cometido principal de 
esta componente es el de sacar conclusiones aplicando el conocimiento a los datos. 
Por ejemplo, en diagnostico medico, los sintomas de un paciente (datos) son 
analizados a la luz de los sintomas y las enfermedades y de sus relaciones 
(conocimiento). Las conclusiones del motor de inferencia pueden estar basadas en 
conocimiento determinista o conocimiento probabilistico. Como puede esperarse, el 
tratamiento de situaciones de incertidumbre (probabilfsticas) puede ser 
considerablemente mas diffcil que el tratamiento de situaciones ciertas (deterministas). 


En muchos casos, algunos hechos (datos) no se conocen con 
absoluta certeza. Por ejemplo, piensese en un paciente que no 
esta seguro de sus sintomas. Puede darse el caso de tener que 
trabajar con conocimiento de tipo no determinista, es decir, de 
casos en los que se dispone solo de informacion aleatoria o 
difusa. El motor de inferencia es tambien responsable de la propagacion de este 
conocimiento incierto. De hecho, en los sistemas expertos basados en probabilidad, la 
propagacion de incertidumbre es la tarea principal del motor de inferencia, que permite 
sacar conclusiones bajo incertidumbre. Esta tarea es tan compleja que da lugar a que 
esta sea probablemente la componente mas debil de casi todos los sistemas expertos 
existentes. Por esta razon, la mayor parte de este libro se dedica al analisis y 
resolution del problema de la propagacion de incertidumbre. 
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EL SUBSISTEMA DE ADQUISICION DE CONOCIMIENTO 

Si el conocimiento inicial es muy limitado y no se pueden sacar conclusiones, el motor 
de inferencia utiliza el subsistema de adquisicion de conocimiento para obtener el 
conocimiento necesario y continuar con el proceso de inferencia hasta que se hayan 
sacado conclusiones. En algunos casos, el usuario puede suministrar la informacion 
requerida para 'este y otros objetivos. De ello resulta la necesidad de una interface de 
usuario y de una comprobacion de la consistencia de la informacion suministrada por 
el usuario antes de introducirla en la memoria de trabajo. 


INTERFACE DE USUARIO 

La interface de usuario es el enlace entre el sistema experto y el usuario. Por ello, para 
que un sistema experto sea una herramienta efectiva, debe incorporar mecanismos 
eficientes para mostrar y obtener informacion de forma facil y agradable. Un ejemplo 
de la informacion que tiene que ser mostrada tras el trabajo del motor de inferencia, es 
el de las conclusiones, las razones que expliquen tales conclusiones y una explicacion 
de las acciones iniciadas por el sistema experto. Por otra parte, cuando el motor de 
inferencia no puede concluir debido, por ejemplo, a la ausencia de informacion, la 
interface de usuario es un vehfculo para obtener la informacion necesaria del usuario. 
Consecuentemente, una implementacion inadecuada de la interface de usuario que no 
facilite este proceso minana notablemente la calidad de un sistema experto. 


Otra razon de la importancia de la interface de usuario es que los usuarios evaluan 
comunmente los sistemas expertos y otros sistemas por la calidad de dicha interface 
mas que por la del sistema experto mismo, aunque no se deberia juzgar la calidad de 
un libro por su portada. 

El Subsistema de Ejecucion de Ordenes 

El subsistema de ejecucion de ordenes es la componente que permite al sistema 
experto iniciar acciones. Estas acciones se basan en las conclusiones sacadas por el 
motor de inferencia. Como ejemplos, un sistema experto disenado para analizar el 
trafico ferroviario puede decidir retrasar o parar ciertos trenes para optimizar el trafico 
global, o un sistema para controlar una central nuclear puede abrir o cerrar ciertas 
valvulas, mover barras, etc., para evitar un accidente. La explicacion de las razones 
por las que se inician estas acciones pueden darse al usuario mediante el subsistema 
de explicacion. 
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/, EL SUBSISTEMA DE EXPLICACION 

El usuario puede pedir una explicacion de 
las conclusiones sacadas o de las acciones 
iniciadas por el sistema experto. Por ello, es 
necesario un subsistema que explique el 
proceso seguido por el motor de inferencia o 
' por el subsistema de ejecucion. Por 
ejemplo, si un cajero automatico decide 
rechazar la palabra clave (una accion), la maquina puede mostrar un mensaje (una 
explicacion) como la siguiente: 


jl_o siento!, su palabra clave es todavia incorrecta tras tres intentos. 
Retenemos su tarjeta de credito, para garantizar su seguridad. 
Por favor, pongase en contacto con su banco en horas de oficina 


En muchos dominios de aplicaciones, es necesaria la explicacion de las conclusiones 
debido a los riesgos asociados con las acciones a ejecutar. Por ejemplo, en el campo 
del diagnostico medico, los doctores son responsable 'ultimos de los diagnostics, 
independientemente de las herramientas tecnicas utilizadas para sacar conclusiones. 
En estas situaciones, sin un subsistema de explicacion, los doctores pueden no ser 
capaces de explicar a sus pacientes las razones de su diagnostico. 


El Subsistema de Aprendizaje 

Una de las principales caracteristicas de un 
sistema experto es su capacidad para aprender. 
Diferenciaremos entre aprendizaje estructural y 
aprendizaje parametric. Por aprendizaje 
estructural nos referimos a algunos aspectos 
relacionados con la estructura del conocimiento 
(reglas, distribuciones de probabilidad, etc.). 








N 


frecuencias o probabilidades asociadas a sintomas 


Por ello, el descubrimiento de nuevos sintomas 
relevantes para una enfermedad o la inclusion de 
una nueva regia en la base de conocimiento son 
ejemplos de aprendizaje estructural. Por 
aprendizaje parametrico nos referimos a estimar 
los parametros necesarios para construir la base 
de conocimiento. Por ello, la estimation de 



o enfermedades es un ejemplo de aprendizaje parametrico. 




Otra caracteristica de los sistemas expertos es su habilidad para obtener experiencia a 
partir de los datos disponibles. Estos datos pueden ser obtenidos por expertos y no 
expertos y pueden utilizarse por el subsistema de adquisicion de conocimiento y por el 
subsistema de aprendizaje. De las componentes antes mencionadas puede verse que 
los sistemas expertos pueden realizar varias tareas. 


Estas tareas incluyen, pero no se limitan a, las siguientes: 

i- Adquisicion de conocimiento y la verification de su coherencia; por lo que el 
sistema experto puede ayudar a los expertos humanos a dar conocimiento 
coherente. 

4 - Almacenar (memorizar) conocimiento. 

4 - Preguntar cuando se requiere nuevo conocimiento. 

i- Realizar inferencia y razonamiento en situaciones deterministas y de 
incertidumbre. 

4 - Explicar conclusiones o acciones tomadas. 

4 - Comunicar con los expertos y no expertos humanos y con otros sistemas 




expertos. 
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Desarrollo de un Sistema Experto 

Weiss y Kulikowski (1984) sugieren las etapas siguientes para el diseno e 
implementacion de un sistema experto, Figura 1 .4. 



Figura 1.4 Etapas en el desarrollo de un sistema experto. 


Planteamiento del problema. 

La primera etapa en cualquier proyecto es normalmente la definicion del problema a 
resolver. Puesto que el objetivo principal de un sistema experto es responder a 
preguntas y resolver problemas, esta etapa es quizas la mas importante en el 
desarrollo de un sistema experto. Si el sistema esta mal definido, se espera que el 
sistema suministre respuestas erroneas. 






gistemas 

Basados 

en 

Vfiglas 


TEMA3 




Competencia: 

Aplicar las tecnicas y herramientas de 
sistemas expertos basados en reglas. 
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T^ma 03: Sistemas Basados pn Reglas 



En nuestra vida diaria encontramos muchas situaciones 
complejas gobernadas por reglas deterministas: sistemas 
de control de trafico, sistemas de seguridad, 
Vsz transacciones bancarias, etc. Los sistemas basados en 
' reglas son una herramienta eficiente para tratar estos 
problemas. Las reglas deterministas constituyen la mas 
sencilla de las metodologias utilizadas en sistemas expertos. La base de conocimiento 
contiene el conjunto de reglas que definen el problema, y el motor de inferencia saca 
las conclusiones aplicando la logica clasica a estas reglas. 


El libro de Pedersen (1989) muestra un enfoque practico e incluye varios algoritmos. 
Describe la base de conocimiento de los sistemas expertos basados en reglas y da 
una definition y ejemplos de reglas, que constituyen el corazon de la base de 
conocimiento. Seguidamente, se discute como opera el motor de inferencia. 


Ob jet o 

Conjunto de valores posibles 

Not a Calificacian 

{0, 1, . . 10} 

Puesto Admitir 

{sobresaliente, notable, aprobado, suspense} 

Notificar 

{0, 1 , 100/ 

{si, pendiente, no} 


{si, no} 


Tabla 2. 1 Un ejemplo de objetos con sus posibles valores. 


LA BASE DE CONOCIMIENTO 

En los sistemas basados en reglas intervienen dos 
elementos importantes: la base de conocimiento y 
los datos. Los datos estan formados por la 
evidencia o los hechos conocidos en una situation 
particular. Este elemento es dinamico, es decir, 
puede cambiar de una aplicacion a otra. Por esta razon, no es de naturaleza 
permanente y se almacena en la memoria de trabajo. En situaciones deterministas, las 
relaciones entre un conjunto de objetos pueden ser representadas mediante un 
conjunto de reglas. 
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El conocimiento se almacena en la base de 
conocimiento y consiste en un conjunto de objetos 
y un conjunto de reglas que gobiernan las 
relaciones entre esos objetos. La information 
almacenada en la base de conocimiento es de 
naturaleza permanente y estatica, es decir, no 
cambia de una aplicacion a otra, a menos que se 
incorporen al sistema experto elementos de 
aprendizaje. Para dar una idea intuitiva de lo que es una regia, supongase que se 
tiene un conjunto de objetos y, por simplicidad, que cada objeto puede tener uno y solo 
uno de un conjunto de posibles valores. Ejemplos de objetos con sus posibles valores 
se dan en la Tabla 2.1 . Seguidamente se dan unos pocos ejemplos de reglas: 

Regia 1 : Si nota > 9, entonces calificacion = sobresaliente. 

Regia 2: Si puesto < 20 o nota > 7, entonces Admitir = si y Notificar =si. 

J 



Cada una de las reglas anteriores relaciona dos o mas objetos y esta formada por las 
partes siguientes: 

• La premisa de la regia, que es la expresion logica entre las palabras clave si y 
entonces. La premisa puede contener una o mas afirmaciones objeto-valor 
conectadas con operadores logicos y, o, o no. Por ejemplo, la premisa de la Regia 
1 consta de una unica afirmacion objeto-valor, mientras que las premisas de la 
Regia 2 constan de dos afirmaciones objeto-valor conectadas por un operador 
logico. 

• La conclusion de la regia, que es la expresion logica tras la palabra clave entonces. 


REGLA. Una regia es una afirmacion logica que 
relaciona dos o mas objetos e incluye dos partes, la 
premisa y la conclusion. Cada una de estas partes 
consiste en una expresion logica con una o mas 
afirmaciones objeto-valor conectadas mediante los 
operadores logicos y, o, o no. Una regia se escribe 
normalmente como “Si premisa, entonces conclusion”. En general, ambas, la premisa 
y la conclusion de una regia, pueden contener afirmaciones multiples objeto-valor. 
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Una expresion logica que contiene solo una afirmacion objeto-valor se denomina 
expresion logica simple; en caso contrario, la expresion se dice expresion logica 
compuesta. Por ejemplo, las expresiones logicas en ambas, premisa y conclusion de 
la Regia 1, son simples, mientras que las expresiones logicas de las premisas y la 
conclusion de la Regia 2 es compuesta. Correspondientemente, una regia que 
contiene solamente expresiones logicas simples se denomina una regia simple; en 
otro caso, se llama regia compuesta. Por ejemplo, la Regia 1 es simple, mientras que 
la Reglas 2 es compuesta. 


CAJERO AUTOMATICO. Como ejemplo de problema determinista que puede ser 
formulado usando un conjunto de reglas, considerese una situation en la que un 
usuario (por ejemplo, un cliente) desea sacar dinero de su cuenta corriente mediante 
un cajero automatico (CA). En cuanto el usuario introduce la tarjeta en el CA, la 
maquina la lee y la verifica. Si la tarjeta no es verificada con exito (por ejemplo, porque 
no es legible), el CA devuelve la tarjeta al usuario con el mensaje de error 
correspondiente. En otro caso, el CA pide al usuario su numero de identification 
personal (NIP). Si el numero fuese incorrecto, se dan tres oportunidades de corregirlo. 
Si el NIP es correcto, el CA pregunta al usuario cuanto dinero desea sacar. Para que 
el pago se autorice, la cantidad solicitada no debe exceder de una cierta cantidad 
Ifmite diaria, ademas de haber suficiente dinero en su cuenta. 

En este caso se tienen siete objetos, y cada objeto puede tomar uno y solo un valor de 
entre sus posibles valores. La Tabla muestra estos objetos y sus posibles valores. La 
Figura muestra siete reglas que gobiernan la estrategia que el CA debe seguir cuando 
un usuario intenta sacar dinero de su cuenta. En la Regia 1 , por ejemplo, la premisa 
consiste en seis afirmaciones objeto - valor conectado mediante el operador logico y, 
lo que indica que la premisa es cierta si las seis afirmaciones lo son. Por ello, la Regia 
1 relaciona el objeto Pago (en la conclusion) con los demas objetos. Segun la Regia 1 , 
la action que debe iniciar el CA es dar el dinero al usuario si la tarjeta se ha verificado 
correctamente, la fecha no ha expirado, el NIP es correcto, el numero de intentos para 
dar el NIP correcto no se ha excedido y la cantidad solicitada no excede ni la cantidad 
disponible ni el Ifmite maximo diario. Las expresiones logicas en cada una de las 
restantes reglas de la Figura 1.5 constan de una sola afirmacion. Notese que la Regia 
1 indica cuando debe permitirse el pago, y las restantes cuando debe rechazarse. 







Conju nto de p osibles valores 


Taijeta 

Fecha 

NIP 


{verificada, no verificada} 
{expirada, no expirada} 
{correcto, income cto} 
{excedidos, no excedidos} 
{suficiente. insuficiente} 
{excedido, no excedido} 
{autorizado, no autorizado} 


Intentos 

Balance 


Limits 

Pago 


Tabla 2.2 Objetos y posibles valores para el ejemplo del cajero automatico. 


Gente famosa: Supongase que se dispone de una base de datos consistente en N 


individuos. Para cada individuo, la base de datos contiene cuatro atributos: nombre, 
sexo, nacionalidad y profesion. Supongase que la base de datos muestra solo si una 
persona es americana, politica y/o si es mujer. Cada uno estos atributos es binario 
(toma solo dos valores posibles). En este caso, la base de datos puede contener, 
como mucho, 23 = 8 conjuntos disjuntos. Estos conjuntos se muestran en la Figura 
1 .6. La figura muestra tambien el nombre de una persona en cada subconjunto. La 
Tabla 2.3 da un ejemplo de una base de datos que contiene N = 8 personas famosas. 

'\ En este caso se tienen cuatro objetos: Nombre, americano, 



I Politico, y Mujer. El primer objeto puede tomar 
uno de N posibles valores (los nombres de cada 
persona) y cada uno de los tres ultimos objetos 
pueden tomar el valor si o el valor no. A partir de la 
Tabla 2.3 se pueden construir reglas para identificar 
a cada persona, resultando un total de ocho reglas. 
Por ejemplo, la regia siguiente corresponde al 
presidente Clinton: 


Regia 1 : Si Nombre = Clinton, entonces Americano = si y Portico = si y Mujer = no. 
Las restantes siete reglas pueden construirse de forma analoga. 
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^ Regia 1 

V 

Si 


Tarj era = verificada 

y 

Fecka = uo esipirada 

V 

KIP= corrects 

V 

Infentos = no excedidos y 

Balance = suficiente 

y 

Limite = no excedido 


Eutonces 


Pago = autorizado 






Regia 4 

KIP = mcorrecto 
Entouces 

Pago = uo autorizado 





^ " 

Regia 6 



Si 

Balance = insuficiente 


Entouces 

Pago = uo autorizado 


Regia 3 

S i~ 

Feclia = expirada 
Entouces 

Pago = no autorizado 





Regia 5 * >l 


Si 

Iutentos = excedi dos 


Entouces 

Pago = no autorizado 





f 

Regia 7 



Si 

Limice = excedido 


Entouces 

Pago = no autorizado 


FIGURA 1 .5. Ejemplos de reglas para sacar dinero de un cajero automatico. 


Nombre 

American 

Polfico 

Mujer 

Barbara Jordan 

SI 

SI 

SI 

Bill Clinton 

SI 

SI 

no 

Barbara Walters 

SI 

no 

SI 

Mohammed AN 

SI 

no 

no 

Margaret 

no 

SI 

SI 

Thatcher Anwar 

no 

SI 

no 

El-Sadat Marie 

no 

no 

SI 

Curie 

no 

no 

no 

Pablo Picasso 





TABLA 2.3. Una base de datos mostrando cuatro objetos y susvalores 
correspondientes para el ejemplo de las personas famosas. 
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FIGURA 1.6. Un ejemplo de una base de datos con tres atributos binarios que dividen 

la poblacion en ocho conjuntos disjuntos. 


Algunos sistemas imponen ciertas restricciones a las reglas. Por ejemplo: 

• No permitir en la premisa el operador logico o, y 

• Limitar las conclusiones a expresiones logicas simples. 

Hay buenas razones para imponer estas restricciones. En primer lugar, las reglas que 
satisfacen estas restricciones son faciles de tratar a la hora de escribir un programa de 
ordenador. En segundo lugar, las dos restricciones anteriores no dan lugar a una 
perdida de generalidad, puesto que reglas mucho mas generales pueden ser 
reemplazadas por conjuntos de reglas de esta forma. A esto se le llama sustitucion de 
reglas. Por tanto, el conjunto de reglas especificado inicialmente por el experto 
humano puede requerir una sustitucion posterior por un conjunto de reglas equivalente 
para satisfacer estas restricciones. 


La Tabla 2.4 da ejemplos de sustitucion de reglas. 
Notese que cada regia de la primera columna 
puede ser sustituida por el correspondiente 
conjunto de reglas de la segunda columna y que 
todas las reglas de 'esta satisfacen las 
condiciones anteriores. Por ejemplo, la primera 
regia compuesta de la Tabla 2.4: • Regia 1 : Si A o 
B, entonces C, Puede ser reemplazada por las dos reglas simples: 
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Regia 

Reglas Equivalentes 

Si A o B, entoncesC 

Si A, entonces C 

Si B, entonces C 

Si A o B, entoncesC 

Si A y B , entonces C 

Si A y B, entoncesC 

Si A , entoncesC 

Si B , entoncesC 

Si (jA o B) y C, entonces D 

Si A y C, entonces D 

Si B y C, entonces D 

Si (A o B) y C, entonces D 

Si A y B y C, entonces D 

Si A y B y C, entonces D 

Si A y C, entonces D 

Si B y C, entonces D 

Si A, entonces B y C 

Si A, entonces B 

Si A, entonces C 

Si A, entonces B o C 

Si A y B , entonces C 

Si A y C, entonces B 

Si A, entonces B y C 

Si A y S. entonces C 

Si A y C, entonces B 

Si A, entonces 6 o C 

Si A, entonces B 

Si A, entonces C 


TABLA 2.4. Ejemplos de sustitucion de reglas: Las reglas en la primera columna son 
equivalentes a las reglas de la segunda columna. Notese que en los seis primeros 
ejemplos las sustituciones se aplican a la premisa y en los cuatro ultimos, a la 

conclusion. 


• Regia la: Si A, entonces C. 

• Regia 1 b: Si B, entonces C. 

Como ejemplo adicional, la Tabla 2.5 muestra que: 

• Regia 2: Si A o B, entonces C, puede ser reemplazada por la regia 

• Regia 2: Si ' A y ' B, entonces C, donde ' A significa no A. La Tabla 2.5 se llama 
tabla de verdad. 



TABLA 2.5. Una tabla de verdad mostrando que las expresiones 
logicas AoB y " A y'B son equivalentes. Los sfmbolos C y F se utilizan 
para cierto y fatso, respectivamente. 






QJ 1 

^'L e 


UNIVERSIDAD PRIVADA TELESUP 


EL MOTOR DE INFERENCIA 

Tal como se ha mencionado en la seccion anterior, hay dos 
tipos de elementos: los datos (hechos o evidencia) y el 
conocimiento (el conjunto de reglas almacenado en la base 
de conocimiento). El motor de inferencia usa ambos para 
obtener nuevas conclusiones o hechos. Por ejemplo, si la 
premisa de una regia es cierta, entonces la conclusion de la 
regia debe ser tambien cierta. Los datos infciales se 
incrementan incorporando las nuevas conclusiones. Por ello, 
tanto los hechos imciales o datos de partida como las conclusiones derivadas de ellos 
forman parte de los hechos o datos de que se dispone en un instante dado. 



Las conclusiones pueden clasificarse en dos tipos: simples y compuestas. 

Las conclusiones simples son las que resultan de una regia simple. Las conclusiones 
compuestas son las que resultan de mas de una regia. Para obtener conclusiones, los 
expertos utilizan diferentes tipos de reglas y estrategias de inferencia. En el resto de 
esta seccion se discuten las reglas de inferencia 

• Modus Ponens, 

• Modus Tollens, 

• Resolution, y las estrategias de inferencia 

• Encadenamiento de reglas, 

• Encadenamiento de reglas orientado a un objetivo, 

• Compilation de reglas, que son utilizadas por el motor de inferencia para obtener 
conclusiones simples y compuestas. 


Las dos primeras reglas de inferencia se usan para 
obtener conclusiones simples y el resto de reglas y 
estrategias para obtener conclusiones compuestas. 
Notese, sin embargo, que ninguna de las estrategias 
anteriores, si se implementan solas, conduce a todas las 
conclusiones posibles. Por ello, deben implementarse 
varias reglas y estrategias en el sistema experto para 
que el motor de inferencia sea capaz de obtener tantas 
conclusiones como sea posible. 
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MODUS PONENS V MODUS TOLLENS 

El Modus Ponens es quizas la regia de inferencia mas comunmente utilizada. Se 

utiliza para obtener conclusiones simples. En ella, se examina la premisa de la regia, y 

si es cierta, la conclusion pasa a formar parte del conocimiento. Como ilustracion, 

supongase que se tiene la regia, “Si A es cierto, entonces B es cierto” y que se sabe 

ademas que “A es cierto.” Entonces, tal como muestra la Figura 1.7, la regia Modus 

Ponens concluye que “B es cierto.” Esta regia de inferencia, que parece trivial, debido 

a su familiaridad, es la base de un gran numero de sistemas expertos. 





FIGURA 1.7. Una ilustracion de la regia de inferencia Modus Ponens. 


La regia de inferencia Modus Tollens se utiliza tambien para obtener conclusiones 
simples. En este caso se examina la conclusion y si es falsa, se concluye que la 
premisa tambien es falsa. Por ejemplo, supongase de nuevo que se tiene la regia, “Si 
A es cierto, entonces B es cierto” pero se sabe que “B es falso.” Entonces, utilizando la 
regia Modus Ponens no se puede obtener ninguna conclusion, pero, tal como se 
muestra en la Figura 1.8, la regia Modus Tollens concluye que “A es falso.” Aunque 
muy simple y con muchas aplicaciones utiles, la regia Modus Tollens es menos 
utilizada que la Modus Ponens. Por ello, la regia Modus Ponens se mueve hacia 
adelante, es decir, de la premisa a la conclusion de una regia, mientras que la regia 
Modus Tollens se mueve hacia atras, es decir, de la conclusion a la premisa. Las dos 
reglas de inferencia no deben ser vistas como alternativas sino como 
complementarias. 
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FIG UR A 1.8. Una ilustracion de la regia Modus To I lens. 

La regia Modus Ponens necesita informacion de los objetos de la premisa para 
concluir, mientras que la regia Modus Tollens necesita informacion sobre los objetos 
de la conclusion. De hecho, para un motor de inferencia que solamente utiliza Modus 
Ponens, la incorporation de la regia de inferencia Modus Tollens puede ser 
considerada como una expansion de la base de conocimiento mediante la adicion de 
reglas, tal como ilustra el ejemplo que sigue. Ejemplo 2.3 La regia Modus Tollens 
equivale a una expansion de la base de conocimiento. Supongase que la base de 
conocimiento consiste solo en la Regia 1 , que se muestra en la Figura 1 .9. Se puede 
utilizar la regia de inferencia Modus Tollens para “invertir” la Regia 1 y obtener alguna 
conclusion cuando se tiene informacion sobre los objetos de su conclusion. 


B , entonces A .” En este caso de Regia 1 , utilizando la equivalencia 
A = C y B = C <=>A = FoB=F, 


Entonces, aplicar la regia Modus Tollens a la regia “Si A, entonces B” es equivalente a 
aplicar la regia Modus Ponens a la regia “Si se obtiene la Regia 1 b, que se muestra en 
la Figura 1.10. Por ello, utilizar ambas, las reglas Modus Ponens y Modus Tollens 
cuando la base de conocimiento contiene solo la Regia 1, es equivalente a usar la 
regia Modus Ponens cuando la base de conocimiento contiene ambas, la Regia 1 y la 
Regia 1b. Por otra parte, el rendimiento del motor de inferencia depende del con- 
junto de reglas en su base de conocimiento. Hay situaciones en las que el motor de 
inferencia puede concluir utilizando un conjunto de reglas, pero no puede, utilizando 
otro (aunque 'estos sean logicamente equivalentes). A continuation se da un ejemplo 
ilustrativo. 
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Competencia: 

Implementor un control de coherencies en 
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T^ma 04: Control d£ la Coherencia 


En situaciones complejas, incluso verdaderos expertos 
pueden dar informacion inconsistente (por ejemplo, reglas 
inconsistentes y/o combinaciones de hechos no factibles). 

Por ello, es muy importante controlar la coherencia del 
conocimiento tanto durante la construction de la base de 
conocimiento como durante los procesos de adquisicion 
de datos y razonamiento. Si la base de conocimiento 
contiene informacion inconsistente (por ejemplo, reglas y/o hechos), es muy probable 
que el sistema experto se comporte de forma poco satisfactoria y obtenga 
conclusiones absurdas. 



El objetivo del control de la coherencia consiste en: 

1 . Ayudar al usuario a no dar hechos inconsistentes, por ejemplo, dandole al usuario 
las restricciones que debe satisfacer la informacion demandada. 

2. Evitar que entre en la base de conocimiento cualquier tipo de conocimiento 
inconsistente o contradictorio. 

El control de la coherencia debe hacerse controlando la coherencia de las reglas y la 
de los hechos. 



TABLA 2.8. Una tabla de verdad que muestra que las Reglas 1 y 2 son 

coherentes. 
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COHERENCIA DE REGLAS 

Reglas coherentes. Un conjunto de reglas se 
denomina coherente si existe, al menos, un 
conjunto de valores de todos los objetos que 
producen conclusiones no contradictorias. En 
consecuencia, un conjunto coherente de reglas no 
tiene porque producir conclusiones no 
contradictorias para todos los posibles conjuntos 
de valores de los objetos. Es decir, es suficiente que exista un conjunto de valores 
que conduzcan a conclusiones no contradictorias. 


V? 



Ejemplo2.13 Conjunto de reglas incoherentes. Considerense las cuatro reglas 

siguientes, que relacionan dos objetos A y B binarios {C, F }: 

• Regia 1: Si A = C, entonces B = C. 

• Regia 2: Si A = C, entonces B = F. 

• Regia 3: Si A = F, entonces B = C. 

• Regia 4: Si A = F, entonces B = F. 

Entonces, pueden obtenerse las siguientes conclusiones: 

1 . Las Reglas 1-2 son coherentes puesto que, tal como se muestra en la Tabla 2.8, 
para A = F , no producen conclusiones. 

2. Las Reglas 1-3 son coherentes puesto que para A = F y B = C , producen una 
conclusion (B = C ) (vease la Tabla 2.9). 

3. Las Reglas 1-4 son incoherentes porque producen conclusiones contradictorias 
para todos los posibles valores de A y B, tal como se ve en la Tabla 2.10. 


Notese que un conjunto de reglas puede ser coherente, 
aunque algunos conjuntos de valores puedan producir 
conclusiones inconsistentes. Estos conjuntos de 
valores se llaman valores no factibles. Por ejemplo, las 
Reglas 1-2 son coherentes, aunque producen 
conclusiones inconsistentes en todos los casos en que 
i A = C. en consecuencia el subsistema de control de coherencia eliminara 
i automaticamente el valor C de la lista de posibles valores del objeto A, permitiendo 
\ de esta forma al usuario seleccionar solo valores factibles de los objetos. 
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Objetos 



Conclusiones 


Conclusiones 

A 

B 

Regia 1 

Regia 2 

Regia 3 

contradictorias 

C 

C 

B = C 

B =F 


Si 

C 

F 

B = C 

B = F 

- 

Si 

F 

C 

- 

- 

B = 

No 

F 

F 

- 

- 

C 

Si 





B = 



c 


TABLA 2.9. Una tabla de verdad que muestra que las Reglas 1-3 son coherentes. 


Objetos 


Conclusiones 


Conclusiones 



Regia 1 

Regia 2 

Regia 3 

Regia 4 

contradictorias 

A 

B 

c 

C 

B = 

B =F 



Si Si 



CB 

B =F 


- 

Si Si 

c 

F 

= C 

- 

B = 

B =F 


C 

— 

— 

C 

B = F 



— 


B = 



F 

F 



C 



F 








TABLA 2.10. Una tabla de verdad que muestra que las Reglas 1-4sonincoherentes. 


Definition de Valores no factibles: Se dice que un valor a para el objeto A no es 
factible si las conclusiones obtenidas al hacer A = a contradicen cualquier 
combination de valores del resto de los objetos. 

Por ello, cualquier valor no factible debe ser eliminado de la lista de valores posibles de 
su correspondiente objeto para eliminar la posibilidad de que el motor de inferencia 
pueda obtener conclusiones inconsistentes. 


1 . Las dos primeras reglas implican que A = C, puesto que A = C siempre conduce a 
conclusiones inconsistentes. Por tanto, el valor A = C deber ser eliminado 
automaticamente de la lista de valores factibles de A. Dado que A es binario, 
entonces resulta A = F (el unico valor posible). 
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2. Las tres primeras reglas implican que A = F y B = 

C. Por tanto, el valor B = F debera valores 
factibles de B. 

3. Las primeras cuatro reglas implican que A = C , A 
= F,B = CyB = F. Por tanto, los valores {C, F} 
son eliminados de las listas de valores de A y B, 
con lo que las listas de valores factibles de todos los objetos estan vacias, lo que 
implica que las cuatro reglas son incoherentes. 


Notese que es suficiente realizar la comprobacion de la coherencia de las reglas solo 
una vez, tras ser introducida cada regia, y que todos los valores no factibles pueden 
ser eliminados de sus correspondientes listas, nada mas ser detectados. El conjunto 
de reglas que forman el conocimiento debe ser coherente; en otro caso, el sistema 
podra obtener conclusiones erroneas. Por ello, antes de anadir una regia a la base de 
conocimiento, hay que comprobar la consistencia de esta regia con el resto de ellas, 
incluidas en la base de conocimiento. Si la regia fuese consistente con el resto de 
reglas, se anadirfa a la base de conocimiento; en caso contrario, se devolverfa al 
experto humano para su correccion. 




Ejemplo de Coherencia de reglas. Supongase que se tienen los 
cuatro objetos: A e {0, 1}, B e {0, 1}, C e {0, 1, 2} y D e {0, 1}. 
Considerense las cuatro reglas: 


• Regia 1 : Si A = 0 y B = 0, entonces C = 0. 


• Regia 2: Si A = O y D = 0, entonces C = 1 . 


• Regia 3: Si A = O y B = 0, entonces C = 1 . 


• Regia 4: Si A = 0, entonces B = 0. 


• Regia 5: Si B = 0, entonces A = 1 . 

Supongase ahora que se desea anadir las tres ultimas reglas a una base de 
conocimiento que contiene las dos primeras reglas. Entonces, las Reglas 1 y 3 son 
inconsistentes, puesto que tienen la misma premisa pero diferentes conclusiones. 
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Por tanto, la Regia 3 debe ser rechazada y el experto humano informado de la razon 
del rechazo. El experto humano corregira la regia en cuestion y/o las reglas existentes 
si fueran incorrectas. La Regia 4 entrara en la base de conocimiento, puesto que es 
consistente con las Reglas 1 y 2. La Regia 5 es inconsistente con la Regia 4. Por ello, 
la consistencia de ambas reglas debe ser comprobada antes de pasar a formar parte 
de la base de conocimiento. 


COHERENCIA DE HECHOS 

Los datos o evidencias suministrados por los usuarios deben ser tambien consistentes 
en si y con el conjunto de reglas de la base de datos. Por ello, el sistema no debe 
aceptar hechos que contradigan el conjunto de reglas y/o el conjunto de hechos 
existente en cada instante del proceso. Por ejemplo, con una base de conocimiento 
que contenga las dos primeras reglas del Ejemplo 2.15, el sistema no debe aceptar el 
conjunto de hechos A =0, B = 0yC=1 puesto que contradicen la Regia 1. El 
sistema debe tambien comprobar si existe o no, una solucion factible e informar al 
usuario en consecuencia. Si en el ejemplo anterior se trata de dar la informacion A = 
0, B = 0 y D = 0, el sistema debe detectar que no existe ningun valor de C que sea 
consistente con la base de conocimiento. Notese que antes de conocer los valores de 
los objetos, existe una solucion factible. Por ejemplo, A =0, B =0, C = 0yD =1 
(estos hechos no contradicen la base de conocimiento). Por ello, la inconsistencia 
surge que los hechos y las reglas sean inconsistentes. 


La coherencia de los hechos puede lograrse mediante las estrategias 
siguientes: 

1 . Eliminar todos los valores no factibles (los que contradicen el conjunto de reglas 
y/o hechos) de los objetos una vez detectados. Cuando se pregunte al usuario por 
informacion sobre los valores de un conjunto de objetos, el sistema experto 
deberfa aceptar solo los valores de cada objeto que sean consistentes con las 
reglas y con el conocimiento previo. Considerase, por ejemplo, la base de 
conocimiento del Ejemplo y supongase que al sistema experto se le ha dado la 
informacion A = 0 y C = 1 ; entonces el sistema debe saber que B = 0. Por ello, 
este valor debe ser eliminado de la lista de posibles valores del objeto B. 
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2. El motor de inferencia debe comprobar que los hechos conocidos no contradicen 
el conjunto de reglas. En la situacion anterior, por ejemplo, el sistema no debe 
aceptar el conjunto de hechos A = 1 , B = 1 y C = 2. Si el sistema no elimina los 
valores no factibles, entonces el usuario podra dar evidencias contradictorias tales 
como Pago = autorizado y NIP = incorrecto en el Ejemplo 2.1 Por ello, tan pronto 
como se de la primera evidencia, Pago = autorizado, el sistema debe seleccionar 
solo los valores del NIP que no conduzcan a conclusiones contradictorias. 



3. Suministrar al usuario una lista de objetos a los que no se ha asignado valores 
previamente. Para cada uno de los objetos, mostrar y aceptar solo sus valores 
factibles. Actualizar continuamente la base de conocimiento, es decir, tan pronto 
como se de un hecho o se obtenga una conclusion, y eliminar los va- lores no 
factibles. El motor de inferencia obtiene todas las conclusiones posibles 
examinando, y posiblemente concluyendo, las reglas tan pronto como una simple 
unidad de informacion llega al sistema. 



O' 
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Ledums < Recomendadas 


❖ APUNTE5 DE $1 STEM AS EXPERTOS 

http://www.dccia.ua.es/dccia/inf/asiqnaturas/FIA/apuntesse.pdf 

♦♦♦ SISTEMAS EXPERTOS EN LA TOMA DE DECISIONES 

http://cdiqital.uv.mx/bitstream/1 23456789/28498/1 /Drouaillet%20Pumarino.pdf 


Admdadesvj Tzjercicios 



En un documento en Word realice un cuadro comparative y un sistema 
experto. Ademas mencione cinco ejemplos de aplicaciones concretas de 
sistemas expertos. Indicando el hardware y software usado. 

Envfalo a traves de "Sistemas Expertos". 

En un documento en Word describa la arquitectura basica de un sistema 
(S.) experto (E.), proponga tres ejemplos con aplicaciones, donde se 
haga evidente la arquitectura usada. 

Envfalo a traves de "Arquitectura de S. E.". 
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1) Una definicion de sistema experto seria: 

a. El sistema Hardware. 

b. El sistema Software. 

c. Memorizar informacion. 

d. Maquinas que piensan y razonan. 

e. Procesar informacion. 


2) Se utilizan sistemas expertos que operan automaticamente los semaforos y 
regulan el flujo del trafico en las calles de una ciudad y en los ferrocarriles, 
este es un ejemplo de: 

a. Control de trafico. 

b. Transacciones bancarias. 

c. Problemas de planificacion. 

d. Diagnostico medico. 

e. Problemas de trafico. 

3) Las etapas en el desarrollo de un sistema experto son: 

a. 5 

b. 2 

c. 3 

d. 7 

e. 8 


4) Un conjunto de reglas se denomina si existe, al menos, 

un conjunto de valores de todos los objetos que producen conclusiones no 
contradictorias. 

a. Inteligente. 

b. Asociadas. 

c. Controlado. 

d. Satisfecho. 

e. Coherente. 

5) La robotica es una de las areas que utiliza la: 

a. Almacenamiento Interno. 

b. Inteligencia Artificial. 

c. Inteligencia Almacenada. 

d. Actuacion inteligente. 

e. Ideas Asociadas. 
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6) Uno de los objetivos del control de la coherencia consiste en 

a. No permitir igualdad de valores. 

b. No permitir programas de software. 

c. Permitir todo tipo de informacion y conocimiento aun cuando este sea 
contradictorio. 

d. Evitar que entre en la base de conocimiento cualquier conocimiento 
inconsistente o contradictorio. 

e. Probar que los sistemas no cometan errores. 


7) Senala cual de las siguientes alternativas menciona a las etapas en el 
desarrollo de un sistema experto. 

a. Planteamiento de problema, herramienta de desarrollo, probar prototipo. 

b. Ejecucion de ordenes, probar prototipo, usuarios. 

c. Planteamiento de problema, adquisicion de conocimientos, base de datos. 

d. Probar prototipo, people soft, construir prototipo. 

e. Interface de usuario, planificacion, ejecucion de ordenes. 


8) Es un subsistema controla la consistencia de la base de datos y evita que 
unidades de conocimiento inconsistentes entren en la misma. 

a. Control de coherencia. 

b. Sistema de datos. 

c. Control de consistencia de los procesos. 

d. Motor de inferencia. 

e. Interface de usuarios. 


9) cCuales son los dos elementos importantes que intervienen en los sistemas 
basados en reglas? 

a. Elemento dinamico y aplicaciones. 

b. Base de datos y base de conocimientos. 

c. Base de conocimientos y los datos. 

d. Memoria de trabajo y datos. 

e. Conjunto de objetos y conjunto de reglas. 


10) Es una afirmacion logica que relaciona dos o mas objetos e incluye dos 
partes, la premisa y la conclusion: 

a. Conclusion. 

b. Regia. 

c. Operadores. 

d. Objeto-valor. 

e. Expresion logica. 
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Los sistemas expertos son maquinas que piensan y razonan como un experto lo haria en 
una cierta especialidad o campo. Por ejemplo, un sistema experto en diagnostico medico 
requerira como datos los sintomas del paciente, los resultados de analisis clinicos y otros 
hechos relevantes, y, utilizando 'estos, buscaria en una base de datos la informacion 
necesaria para poder identificar la correspondiente enfermedad. 


Los problemas con los que pueden tratar los sistemas expertos pueden clasificarse en 
dos tipos: problemas esencialmente deterministas y problemas esencialmente 
estocasticos. Consecuentemente, los sistemas expertos pueden clasificarse en dos 
tipos principales segun la naturaleza de problemas para los que estan disenados: 
deterministas y estocasticos. 


Los sistemas basados en reglas son una herramienta eficiente para tratar estos 
problemas. Las reglas deterministas constituyen la mas sencilla de las metodologfas 
utilizadas en sistemas expertos. La base de conocimiento contiene el conjunto de reglas 
que definen el problema, y el motor de inferencia saca las conclusiones aplicando la 
logica clasica a estas reglas. 


En situaciones complejas, incluso verdaderos expertos pueden dar informacion 
inconsistente (por ejemplo, reglas inconsistentes y/o combinaciones de hechos no 
factibles). Por ello, es muy importante controlar la coherencia del conocimiento tanto 
durante la construction de la base de conocimiento como durante los procesos de 
adquisicion de datos y razonamiento. Si la base de conocimiento contiene informacion 
inconsistente (por ejemplo, reglas y/o hechos), es muy probable que el sistema experto. 
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a) Presentation v contextualizacion 

Los temas que se tratan en la presente Unidad Tematica, tienen por finalidad que 

el estudiante conozca los Sistemas expertos probabilfsticos que han demostrado 
resolver muchos problemas que se crfan necesitaban ciertas habilidades que solo 
se encuentran en los seres humanos (por ejemplo, la habilidad de pensar, 
observar, memorizar, aprender, ver, oler, etc.). Sin embargo, el trabajo realizado en 
las tres ultimas decadas por investigadores procedentes de varios campos, 
muestra que muchos de estos problemas pueden ser formulados y resueltos por 
maquinas. 

b) Competencia 

Comprende los sistemas expertos basados en probabilidades relacionados 
con el calculo. 

c) Cqpacidades 

1 . Interpretar la construccion de modelos probabilfsticos. 

2. Describir la base de conocimientos de un sistema experto. 

3. Reconoce los grafos como una tecnica para representar procesos. 

4. Emplea grafos definidos en procesos de sistemas expertos. 

d) Attitudes 

S Presenta iniciativa en la investigacion para profundizar los sistemas expertos. 

S Promueve el desarrollo de ejercicios practicos basados en probabilidades. 

e) Presentation de Ideas basitas v tontenido esentiales de la Unidad: 

La Unidad de Aprendizaje 02: Sistemas Expertos Basados en Probabilidad, 

comprende el desarrollo de los siguientes temas: 

TEMA 01 : Conceptos Basicos de Probabilidad. 

TEMA 02: La Base del Conocimiento. 

TEMA 03: Algunos conceptos sobre grafos. 

TEMA 04: Tipos de Grafos Dirigidos. 
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TEMA1 


Conceptos 
Basicos de 
probabilidad 




Competencia: 

Interpretar la construction de modelos 
probabilisticos. 








Uesarrollo de los Temas 



T £ma 01: Conepptos Basieos d£ Probabilidad 


ALCUNOS CONCEPTOS BASICOS DE LA TEORIA DE LA PROBABILIDAD 

En esta seccion se introduce el siguiente material basico que sera utilizado 

posteriormente: 

a. Medida de probabilidad. 

b. Distribuciones de probabilidad. 

c. Dependencia e independencia. 

d. Teorema de Bayes. 

e. Tipos de errores. 



Medida de probabilidad 

Para medir la incertidumbre se parte de un marco de 
discernimiento dado S, en el que se incluyen todos los 
posibles resultados de un cierto experimento como 
conjunto exhaustivo y mutuamente exclusivo. El conjunto 
S se conoce como espacio muestral. Una vez definido 
este conjunto, el objetivo consiste en asignar a todo 
subconjunto de S un numero real que mida el grado de incertidumbre sobre su 
realization. Para obtener medidas con significado fisico claro y practico, se imponen 
ciertas condiciones o propiedades intuitivas adicionales que definen una clase de 
medidas que se conocen como medidas de probabilidad. 



Una funcion p que proyecta los subconjuntos A c S en el 
intervalo [0, 1] se llama medida de probabilidad si satisface 
los siguientes axiomas: 

❖ Axioma 1 (Normalization): p(S) = 1. 

❖ Axioma 2 (Actividad): Para cualquier sucesion infinita, A1 , 

A2,..., de subconjuntos disjuntos de S, se cumple la igualdad 
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El Axioma 1 establece que, independientemente de nuestro grai ' ' 

certeza, ocurrira' un elemento del conjunto universal S (es 
decir, el conjunto S es exhaustivo). 



El Axioma 2 es una formula de agregacion que se usa para 
calcular la probabilidad de la union de subconjuntos disjuntos. 
Establece que la incertidumbre de un cierto subconjunto es la 
suma de las incertidumbres de sus partes (disjuntas). 


Notese que esta propiedad tambien se cumple para sucesiones finitas. De los 
axiomas anteriores pueden deducirse propiedades muy interesantes de la 
probabilidad. Por ejemplo: 

• Propiedad 1 (Normalizacion): p(<p) = 0. 

• Propiedad 2 (Monotonicidad): Si A Q B Q S, entonces p(A) < p(B). 

• Propiedad 3 (Continuidad-Consistencia): Para toda sucesion creciente A1 Q 
A2 Q ... o decreciente A1 2 A2 2 ... de subconjuntos de S setiene 


lim p(Ai ) = p( limA i ). 


oo 


oo 


• Propiedad 4 (Inclusion-Exclusion): Dado cualquier par de subconjuntos A y B 
de S, se cumple siempre la siguiente igualdad: 


p(A u B) = p(A)+ p(B) - p(A fl B). 


La Propiedad 1 establece que la evidencia asociada a una 
ausencia completa de informacion es cero. 

La Propiedad 2 muestra que la evidencia de la pertenencia de 
un elemento a un conjunto debe ser al menos la evidencia de 
cualquiera de sus subconjuntos. En otras palabras, la evidencia 
de que un elemento pertenezca a un conjunto dado A no debe 



decrecer con la adicion de elementos a A. 
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La Propiedad 3 puede ser considerada como una propiedad de consistencia o 
continuidad. Si se eligen dos sucesiones de conjuntos que convergen al mismo 
subconjunto de S, se debe obtener la misma evidencia o incertidumbre. La Propiedad 
4 establece que las probabilidades de los conjuntos, A, B, A fl B, y A u B no son 
independientes, sino que estan relacionadas Un ejemplo clasico que ilustra estos 
axiomas es el del lanzamiento de un dado no trucado. 

Aqui el espacio muestral es S = {1 , 2, 3, 4, 5, 6}, es decir, el conjunto de los posibles 
resultados del lanzamiento. Sea p(A) la probabilidad de que ocurra el suceso A. 
Entonces, por ejemplo, se tiene: 

P(S) = 1, p({1}) = 1/6, p({3}) = 1/6, y p({1, 3}) = p({1})+ p({3}) = 1/3. 


IIaIaIa 


Distribudones de probabilidad B 

Sea {XI ,..., Xn} un conjunto de variables aleatorias 
discretas y {xl ,..., xn } el conjunto de sus posibles 
realizaciones. Notese que las variables aleatorias se 
denotan con mayusculas y que sus realizaciones se 
denotan con minusculas. Por ejemplo, si Xi es una 
variable binaria, entonces xi puede ser 1 o 0. Los resultados que siguen son tambien 
validos si las variables son continuas, pero en este caso los sfmbolos de suma deben 
sustituirse por integrales. 
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El conocimiento de la ocurrencia de un suceso puede modificar las probabilidades de 
otros sucesos. Por ejemplo, la probabilidad de que un paciente tenga una 
enfermedad dada puede cambiar tras el conocimiento de los resultados de un 
analisis de sangre. 

Por ello, cada vez que se dispone de nueva informacion, las probabilidades de los 
sucesos pueden, y suelen, cambiar. Esto conduce al concepto de probabilidad 
condicional. 


x y z p(x.y,z) 



0 0 0 0.12 

0 0 1 0.18 

0 1 0 0.04 

0 1 1 0.16 

1 0 0 0.09 

1 0 1 0.21 

1 1 0 0.02 

1 1 1 0.18 


Tabla 3.2. Funcion de probabilidad conjunta de tres variables binarias. 

Probabilidad condicional. Sean X e Y dos conjuntos disjuntos de variables tales que 
p(y) > 0. Entonces, la probabilidad condicional (funcion de probabilidad condicionada) 
de X dado Y = y viene dada por 



...(3.5) 


La ecuacion (3.5) implica que la funcion de probabilidad conjunta de X e Y puede 
escribirse como: 
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Dependenda e independencia 

Independencia de dos variables. Sean X e Y dos subconjuntos disjuntos el conjunto 
de variables aleatorias {X,...,Xn}. Entonces se dice que X es independiente de Y si y 
solamente si: 

p($\v) - 


Para todos los valores posibles x e y de X e Y; en otro caso, X se dice dependiente 
de Y. 

Notese que si x e y son valores posibles de X e Y, entonces p(x) > 0 y p(y) > 0. Por 
ello, la condicion p(y) > 0 es natural en el sentido de que no puede observarse Y = y 
si no se satisface la condicion. 


p(x\y) = p(x), {3Q) 

La ecuacion (3.8) significa que si X es independiente de Y, entonces nuestro 
conocimiento de Y no afecta nuestro conocimiento sobre X, es decir, Y no tiene 
informacion sobre X. Tambien, si X es independiente de Y, pueden combinarse (3.6) 
y (3.8) para obtener p(x, y)/p(y) = p(x), que implica 



La ecuacion (3.9) indica que si X es independiente de Y, entonces la funcion de 
probabilidad conjunta de X e Y es igual al producto de sus marginales. En realidad, 
(3.9) es una definition de independencia equivalente a la (3.8). Una propiedad 
importante de la relation de independencia es su simetria, es decir, si X es 
independiente de Y, entonces Y es independiente de X. 

Esto ocurre porque 
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Por la propiedad de simetria se dice que X e Y son independientes o 
mutuamente independientes. La implicacion practica de la simetria es que si el 
conocimiento de Y es relevante (irrelevante) para X, entonces el conocimiento 
de X es relevante (irrelevante) para Y. 

Los conceptos de dependencia e independencia de dos variables aleatorias pueden 
ser extendidos al caso de mas de dos variables aleatorias como sigue: 

Independencia de un conjunto de variables: Las variables aleatorias {XI Xm } se 
dice que son independientes si y solo si 


...(3.11) 



Para todos los valores posibles xl ,..., xm de XI ,..., Xm . En otro caso, se dice que 
son dependientes. En otras palabras, {XI Xm } se dicen independientes si y solo 
si su funcion de probabilidad conjunta es igual al producto de sus funciones de 
probabilidad marginal. Notese que (3.11) es una generalizacion de (3.9). 

Notese tambien que si XI Xm son condicionalmente independientes dado otro 
subconjunto Y1 Yn , entonces 


P(® li 


Una implicacion importante de la independencia es que no es rentable obtener 
information sobre variables independientes, pues es irrelevante. Es decir, 
independencia significa irrelevancia. 

Dependencia e independencia condicional. Sean X, Y y Z tres conjuntos disjuntos 
de variables, entonces X se dice condicionalmente independiente de Y dado Z, si y 
solo si; 



p( x | z, y) = p(x | z) 
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Para todos los valores posibles de x, y y z de X, Y y Z; En otro caso X e Y se 
dicen condicionalmente dependientes dado Z. 

Cuando X e Y son condicionalmente independientes dado Z, se escribe l(X, Y j Z) La 
relacion l(X, Y / Z) se denomina relacion de independencia condicional. Similarmente, 
cuando X e Y son condicionalmente dependientes dado Z, se escribe D(X, Y | Z) que 
se conoce como una relacion de dependencia condicional. A veces escribimos l(X, Y 
| Z) P o D(X, Y | Z) P para indicar que la relacion se deriva, o es implicada, por el 
modelo probabilistico asociado a la probabilidad p (la funcion de probabilidad 
conjunta). 



La definicion de independencia condicional Neva en si la idea de que una vez que es 
conocida Z, el conocimiento de Y no altera la probabilidad de X . En otras palabras, 
si Z ya es conocida, el conocimiento de Y no anade informacion alguna sobre X. 
Una definicion alternativa, pero equivalente, de independencia condicional es 


p(x, y | z) = p(x | z) p(y | z). 


Notese que la independencia (incondicional) puede ser tratada 
como un caso particular de la independencia condicional. Por 
ejemplo, se puede escribir l(X, Y | <\>) para indicar que X e Y 
son incondicionalmente independientes, donde cp es el 
conjunto vacio. Notese, sin embargo, que X e Y pueden ser 
independientes incondicionalmente pero condicionalmente 
dependientes dado Z, es decir, la relacion de independencia condicional l(X, Y | §) y 
la de dependencia condicional D(X, Y | Z) pueden satisfacerse simultaneamente. 



Por ejemplo, para determinar si X e Y son independientes, se necesita comprobar si 
p(x, y) = p(x) p(y) para todos los valores posibles de x e y. 

Tambien se puede determinar si cualesquiera dos variables son condicionalmente 
independientes dada una tercera variable. 
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Por ejemplo, para comprobar si X e Y son condicionalmente 
independientes dado Z, es necesario comprobar si p(x | y, z) 
= p(x, y, z)/p(y, z) = p(x | z) para todos los valores posibles 
de x, y y z. Para ello, se calculan las probabilidades cuyos 
valores se muestran en la Tabla 3.6. En esta tabla puede 
verse que p(x | y, z) = p(x | z) y, por tanto, D(X, Y | Z). Por 
ello, la funcion de probabilidad conjunta de la Tabla 3.2 implica que X e Y son 
incondicionalmente independientes, I (X, Y |<|>), aunque son condicionalmente 
dependientes dado Z, D(X, Y | Z ). 




Vi 



y 

Z 

X 

P(x|y, z) 

0 

0 

0 

12/21 * 0.571 

0 

0 

1 

9/21 * 0.429 

0 

i 

0 

18/39 « 0.462 

i 

0 

0 

4/6 * 0.667 

i 

0 

1 

2/6 * 0.333 ' 

i 

1 

0 

16/34 « 0.471 


V 


i 


TABLA 3.6. Funciones de probabilidad obtenida de la funcion de 
probabilidad conjunta de la Tabla 3.2. 
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T £ma 02: La Base del Conoeimiento 



La base de conocimiento de un sistema experto probabilistico 
consiste en un conjunto de variables, {XI,..., Xn}, y una funcion 
de probabilidad conjunta definida sobre ellas, p(x1 ,..., xn). Por 
ello, para construir la base de conocimiento de un sistema 
experto probabilistico, se necesita definir la funcion de 
probabilidad conjunta de las variables. 


El modelo mas general posible se basa en especificar directamente la funcion de 
probabilidad conjunta; es decir, asignar un valor numerico (parametro) a cada una de 
las posibles combinaciones de valores de las variables. Desgraciadamente, la 
especificacion directa de la funcion de probabilidad conjunta 
implica un gran numero de parametros. Por ejemplo, con n 
variables binarias, la funcion de probabilidad conjunta mas 
general tiene 2n parametros (las probabilidades p(x1 ,..., xn) 
para toda posible realizacion {xl xn } de las variables, un 
numero tan grande que no hay ordenador en el mundo capaz 
de almacenarlo incluso para un valor de n tan pequeno como 50. 



Esta fue una de las primeras criticas al uso de la probabilidad en los sistemas 
expertos. Sin embargo, en la mayor parte de las situaciones practicas, muchos 
subconjuntos de variables pueden ser independientes o condicionalmente 
independientes. En tales casos, se pueden obtener simplificaciones del modelo mas 
general teniendo en cuenta la estructura de independencia de las variables. Esto 
suele dar lugar a una reduccion importante del numero de parametros. 
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Una ilustracion grafica del modelo de smtomas dependientes. 
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El modelo de smtomas independientes 

Debido a la imposibilidad de trabajar con el modelo anterior en muchos casos 
practicos, resulta necesario proceder a la simplificacion del modelo. Una 
simplificacion posible consiste en suponer que, para una enfermedad dada, los 
smtomas son condicionalmente independientes entre si. El modelo resultante se 
denomina modelo de smtomas independientes (MSI). El MSI se ilustra en la Figura 
3.7, donde los smtomas no estan ligados, para indicar la independencia. 


Puesto que los smtomas se suponen condicionalmente independientes dada 
la enfermedad, se tiene; 



FIGURA 3.7. Una ilustracion grafica del modelo de smtomas 

independientes. 


Por ello, se puede escribir la funcion de probabilidad conjunta de la enfermedad E 
dados los smtomas si ,..., sn como 


p(e i )p(s 1 s n \ €i) 


P{S 1, ■ ■ • i ■ < ’n ) 


n 

p( e i) n p( s ji e i) 


j=i 

{ Q 0(V\ 

p{s 1, . . . ,s n ) 


^ p(e-i) 

(3.27) 


j=i 
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La ecuacion muestra como la hipotesis de independencia modifica las probabilidades 
de todas las enfermedades cuando se conocen nuevos sfntomas. Por ello, la 
probabilidad inicial de la enfermedad ei es p(ei ), pero tras conocer los sfntomas sj , 
para j = 1,..., k, resulta proporcional a p(sj | ei ). Notese que cada nuevo sfntoma 
conduce a un nuevo factor. Notese tambien que p(s1 sn ), en el denominador es 
una constante de normalizacion que no es necesario calcular directamente. 

❖ Las probabilidades marginales p(ei ), para todos los valores posibles de la 
enfermedad E. 

❖ Las probabilidades condicionales p(sj |ei ), para todos los valores posibles del 
sfntoma Sj y la enfermedad E. 


Por ello, con las hipotesis de independencia de los sfntomas, el 
numero de parametros se reduce considerablemente. Con m 
enfermedades posibles y n sfntomas binarios, el numero total de 
parametros es m(n + 1) - 1. Por ejemplo, con m = 100 
enfermedades y n = 200 sfntomas, se tienen 20,099 parametros en 
el MSI en vez de mas de 1062 parametros para el MSD. Ejemplo de El 
Modelo de sfntomas independientes. Para ilustrar el MSI, se utilizan los historiales 
clfnicos de dos centros medicos, cada uno de ellos consta de N = 1000 pacientes; 
dos valores de la enfermedad (g y g~ ); y tres sfntomas, D, V y P. 



Centro Medico 1 


a 

y 

Total 

d 

$ 

•i 

& 

v 

J 1 

220 

or, 

4 

31 

350 


P 

25 

10 

5 

50 

90 

7* 

P 

220 

or, 

9 

7G 

400 


P 

25 

10 

12 

113 

1G0 

Total 

490 

210 

30 

270 

mon 

Centro Medico 2 



9 

y 




d 

,1 

d 

d 

Total 

V 

P 

140 

210 

0 

0 

350 


P 

0 

0 

30 

60 

90 

r 

P 

280 

0 

0 

120 

400 


P 

70 

0 

0 

90 

100 

Total 

490 

210 

30 

270 

1000 


TABLA 3.13. Numeros de pacientes clasificados por una enfermedad G y tres 
sintomas, D, V y P en dos centros medicos. 
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TABLA 3.14. Probabilidades requeridas para la especificacion del MSI. 


Los datos se resumen en la Tabla 3.13. Notese que los datos del Centro Medico 1 
son los mismos que los de la Figura 3.1, pero dados ahora en forma tabular, en vez 
de forma grafica. Para especificar el MSI, se necesita la probabilidad marginal, p(ei ), 
de la enfermedad y las probabilidades condicionales de cada smtoma dada cada 
enfermedad, p(d|ei ), p(v|ei ) y p(p|ei ). Estas probabilidades se extraen de la Tabla 
3.13 y se dan en la Tabla 3.14. Notese que solo 7 parametros son libres. Un 
aspecto interesante de los dos conjuntos de datos es que aunque son muy 
diferentes, conducen a identicas probabilidades, como se muestra en la Tabla 3.14. 


En la Tabla 3.15 se da la probabilidad condicional de E dadas varias 
combinaciones de los sintomas para los dos centros medicos. Notese que; 



Centro Medico 1 

Centro Medico 2 

d 

V 

p 

Valor Real 

MSI 

Valor Real 

MSI 

0 

0 

0 

0.08 

0.08 

0.00 

0.08 

0 

0 

1 

0.56 

0,56 

0,00 

0.56 

0 

1 

0 

0.17 

0.18 

0.00 

0.18 

0 

1 

1 

0.75 

0.74 

1.00 

0.74 

1 

0 

0 

0.68 

0.66 

1,00 

0.66 

1 

0 

1 

0.96 

0.96 

1.00 

0.96 

1 

1 

0 

0.83 

0.82 

0.00 

0.82 

1 

1 

1 

0.98 

0.98 

1.00 

0.98 


TABLA 3.15. La probabilidad condicional p(g | d, v, p) 

p(g\d,v,p) = 1 - p(g\d t v,p) 
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Los valores exactos se calculan directamente de la Tabla 3.13 utilizando la definition 
de probabilidad condicional dada en (3.3). Los valores de las 
columnas etiquetadas MSI se calculan aplicando la formula 
para el MSI en (3.27). Por ejemplo, para el Centro Medico 1 , el 
valor de p(g|d, v, p) se calcula mediante 


p(g\d. i f,p) = 


p(g } d,v t p) 


220 


= 0.98. 


p(d< v,p) 220 + 4 
El valor de p(g\d, v,p) segun el MSI se calcula usando 



p{c{\(i, v, p) oc p{g)p{&\g)p{v\g)p{p\g) — u.y x u.y x u.5 x u.y — 
p(g\d y v v p) cc p{g)p(d\g)p(ij\Tfyp{p\7f) = 0.3 x 0.1 x 0.3 x 0.4 = 0.0036. 

Dividiendo 0.2205 por la constante de normalizacion 0.2205 + 0.0036 = 
0.2241, se obtiene p(g\d< v,p) = 0.2205/0.2241 = 0.98 y p(g\d, v,p) = 
0.0036/0.2241 = 0.02. 


Una comparacion entre las probabilidades verdaderas y las 
correspondientes al MSI de la Tabla 3.15 muestra que los dos 
conjuntos de probabilidades son parecidos para el Centro 
Medico 1 , pero discrepan notablemente para el Centro Medico 
2. Por ejemplo, para el Centro Medico 2 el valor real de p(g | d, 
v, p') es 0, mientras que el correspondiente al MSI es 0.82. 
Esto es una prueba de que el MSI falla al tratar de describir la probabilidad de los 
datos del Centro Medico 2. Notese que se tienen dos conjuntos de datos con las 
mismas probabilidades “a priori” y las mismas verosimilitudes; sin embargo, el MSI es 
apropiado para reproducir uno de ellos y no, para el otro. 



De este ejemplo puede concluirse que las probabilidades “a priori” y las 
verosimilitudes no son suficientes para especificar un modelo probabilistico. 
Por tanto, debe ponerse especial cuidado en la seleccion del modelo 
probabilistico a utilizar en un caso dado. 
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Modelo de smtomas relevantes independientes 

Se puede conseguir una reduccion aun mayor del numero de parametros 
suponiendo que cada enfermedad tiene un numero reducido de smtomas relevantes. 
En consecuencia, para cada valor el de la enfermedad E se seleccionan algunos 
smtomas relevantes SI,..., Sr (relativamente pocos frente al total de smtomas) y los 
restantes smtomas se suponen independientes para ese valor de E. El MSRI se 
ilustra en la Figura 3.16. Notese que para el, el conjunto de smtomas relevantes es 
{SI , S2 }; para e2 , el conjunto de smtomas relevantes es {S2 , S3 , S4 }; y asf 
sucesivamente. 



FIGURA 3.16. Una ilustracion grafica del modelo de smtomas Relevantes 

independientes. 

Por simplicidad de notation, supongase que SI ,..., Sri son relevantes para la 
enfermedad ei y que los restantes smtomas Sri +1 ,..., Sn son irrelevantes. Segun el 
MSRI, p(sj |ei ) se supone identica para todos los smtomas que son 
irrelevantes para la enfermedad ei . Entonces la funcion de probabilidad 
conjunta de la enfermedad ei dados los smtomas si ,..., sn puede 
escribirse como sigue donde pj = p(sj |ei ), que es la misma para 
todas las enfermedades para la que Sj es irrelevante, se obtiene el 
MSRI. Se deduce que es necesario almacenar las probabilidades 
siguientes en la base de conocimiento del MSRI: 



p(e;|si. . . . , s n ) — 


P(,^l > * • * > 

ri n 

p(e») n p( s j\ e i ) n Ptelei) 

j=l j=r i + 1 

p(s 1, . - - , S„) 

Ti 71 

K e ;) n p( s ji e i) n pj 

3= 1 j=ri + l 

p(s 1, . • . ;S n ) 


(3.28) 





s Las probabilidades marginales p(ei ), para todos los valores posibles de la 
enfermedad E. 

s Las probabilidades condicionales p(sj | ei ), para cada valor posible de E y cada 
uno de sus correspondientes sintomas relevantes. 
s Las probabilidades pj , para cada valor posible de E que tiene al menos un 
sintoma irrelevante. (Esto implica que pj = p(sj | ei ) es identica para todos los 
sintomas irrelevantes para ei). 

La ecuacion implica que en la base de conocimiento se necesita almacenar las 
probabilidades de todos los sintomas relevantes para cada enfermedad, y la misma 
probabilidad para todos los sintomas irrelevantes para cada valor de E. Por ello, si 
se tienen m posibles enfermedades y n sintomas binarios, el numero de parametros 
en el MSRI es; m 



m — 1 + n — a 4 - r n 

i=i 


Donde ri es el numero de sintomas relevantes para la 



enfermedad ei y a es el numero de sintomas que son 
relevantes para todas las enfermedades. El numero de 
parametros se reduce significativamente cuando ries mucho 
menor que n. Por ejemplo, con 100 enfermedades y 200 
sintomas, si ri = 10 para todas las enfermedades, 4 el 


numero de parametros en el MSRI se reduce de 20,099 ^ 


para el MSI a 1 ,299 para el MSRI. Notese que se puede obtener el MSRI a partir del 
MSI, sin mas que imponer algunas restricciones adicionales en los parametros del 
MSI, puesto que en el MSRI las probabilidades p(sj |ei ) deben ser las mismas para 
todos los sintomas irrelevantes para las enfermedades ei. 


El numero de restricciones es parametros en el MSI, (m(n + 1) - 1), menos el 
numero de restricciones. 


a — n + rtj, 

j=i 



En total, se tiene 
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T^ma 03 : fllgunos Conepptos sobr£ Grajbs 


CONCEPTOS BASICOS V DEFINICIONES 

Supongase un conjunto de objetos X = {XI, X2,..., Xn } que pueden relacionarse 
entre si. El conjunto X puede ser representado graficamente por una coleccion de 
nodos o vertices, asociando un nodo a cada elemento de X. Estos nodos pueden 
conectarse por aristas, indicando las relaciones existentes entre los mismos. Una 
arista entre los nodos Xi y Xj se denotara' mediante Lij. 



Asi mismo, el conjunto de todas las aristas se denotara por L = {Lij | Xi y Xj estan 
conectados}. Por tanto, un grafo puede definirse de forma intuitiva mediante el 
conjunto de nodos, X, y las relaciones entre los mismos, L. En el 
siguiente ejemplo se ilustra esta idea intuitiva. A continuacion se 
introduce una definicion formal. 

Ejemplo de Grafos. La Figura 4.1 es un ejemplo de un grafo 
compuesto de seis nodos X = {A, B, ..., G} y de un conjunto de 
seis aristas, 

L = {LAB , LAC , LBD , LC E , LDF , LD G } 



Los nodos estan representados por circulos y las aristas por lineas que unen 
los nodos correspondientes. 



FIGURA 4. 1. Ejemplo de un grafo o red. 





El concepto de grafo puede definirse de forma mas general. Por ejemplo, puede 
permitirse que dos nodos esten conectados por mas de una arista, o incluso que un 
nodo este conectado consigo mismo. Sin embargo, en el campo de los sistemas | 

■ expertos, los grafos se utilizan para representar un conjunto de variables |* 
proposicionales (nodos), y unas relaciones de dependencia entre ellas (aristas). Por 
tanto, no es necesario que dos nodos esten unidos por mas de una arista, o que una 
arista una un nodo consigo mismo. 


Las aristas de un grafo pueden ser dirigidas o no dirigidas, dependiendo de si se 
considera o no, el orden de los nodos. En la practica, esta distincion dependera de la 
importancia del orden en que se relacionen los objetos. 

Arista dirigida: 

Dado un grafo G = (X, L), si Lij 6 L y Lj i 6/ L, la arista Lij 
entre los nodos Xi y Xj se denomina dirigida y se denota mediant* 

Xi — Xj. 



Arista no dirigida: 

Dado un grafo G = (X, L), si Lij 6 L y Lj i e L, la arista Lij se denomina no dirigida 
y se denota mediante Xi - Xj o Xj - Xi . 


Grafo dirigido y no dirigido: 

Un grafo en el cual todas las aristas son dirigidas se denomina grafo dirigido, y un 
grafo en el que todas sus aristas son no dirigidas se denomina no dirigido. 

Por tanto, en un grafo dirigido es importante el orden del par de nodos que definen 
cada arista, mientras que en un grafo no dirigido, el orden carece de importancia. 



FIGURA 4.2. Ejemplos de un grafo dirigido (a), y uno no dirigido (b). 







El grafo de la Figura 4.2(a) esta definido por: 


X = {A.B.C,D*E,F}, 

L = {A-D,B - C, D — B.F — D.D -► E,E — F} 


Mientras que para el grafo de la Figura 4.2 (b) se tiene 


X = {IB,C.D,EJ,GM}< 

L = {A-B,B-C t C-D,D-E i E-A,E-F,F-G,G-D,D-S] 


Conjunto adyacente. Dado un grafo G = (X, L) y un nodo Xi , el conjunto adyacente 
del nodo Xi es el conjunto de nodos que son directamente alcanzables desde Xi , es 


decir, Ady{Xi) = {X, € X \ L 



Esta definicion proporciona una description 

alternativa de un grafo mediante un conjunto de 

nodos, X , y los conjuntos adyacentes de cada uno I 

de los nodos en X ; es decir, el grafo (X, L) puede 

ser representado de forma equivalente mediante (X, 

Ady), donde X = {XI ,..., Xn} es el conjunto de nodos ^ * 

y Ady = {Ady(X1 ),..., Ady(Xn )} es la lista de conjuntos adyacentes. Como se vera 
mas adelante, esta forma de representation de un grafo es muy conveniente desde 
un punto de vista computacional. 


Ejemplo 4.3 Conjuntos adyacentes. El grafo dirigido dado en la Figura 4.2(a) tiene 
asociados los siguientes conjuntos de nodos adyacentes: 


Ady (A) = {D}, Ady(B) = {C}. Ady(C) = <f>, 

Ady(D) = {B, E} . Ady(E) = {F}, Ady(F) = {£>}. 

Por otra parte, los conjuntos adyacentes del grafo no dirigido de la Figura 4.2 (b) son: 


Ady(A) — \ D,E\, Ady(B) = {AC}, 

Ady(C) Ady[D) {C,E,GM} 

Ady(E) = [A,D,F} t Ady(F) = {E,G}, 

Ady(G) = {D,F\. Ady(H) = {£>}. 


Por tanto, los grafos mostrados en la Figura 4.2 pueden ser definidos de forma 
equivalente por (X, L) o por (X, Ady). 








El conjunto adyacente de un nodo Xi contiene los nodos que son directamente 


A 


alcanzables desde Xi. Por tanto, comenzando en un nodo dado y pasando de forma 
sucesiva a uno de sus nodos adyacentes, se puede formar uncamino a traves del 
grafo. Como se vera mas adelante, el concepto de camino entre dos nodos juega un 
papel central en la teoria de grafos. 

Camino entre dos nodos. Un camino del nodo Xi al nodo Xj es una sucesion de 

nodos (Xil Xir ), comenzando en Xil = Xi y final izando en Xir = Xj , de forma 

que existe una arista del nodo Xik al nodo Xik+1 , k = 1,...,r - 1, es decir, 



J 


V 


La longitud del camino, (r — 1 ), se define como el numero de aristas que contiene. 
En el caso de grafos no dirigidos, un camino (Xil ,..., Xir ) puede representarse 
mediante Xil - ... - Xir , indicando el caracter no dirigido de las aristas. De modo 
similar, otra forma de representar un camino en un grafo dirigido es mediante 


Xil -»• 


Xir . 


J 




Ejemplo: 


■\ 



Considerese el grafo dirigido dado en la Figura 4.2(a). 
Existe un unico camino de longitud 2 de D a F en este 
grafo, D — ► E — > F Por otra parte, existe un camino de A 
a B de longitud 2, A — > D — ► B, y otro de longitud 5, 


A — ► D — ► E — > F — ► D — ► B. Observese que, por el 

contrario, no existe ningun camino de B a A. Por otra parte, 
existe al menos un camino entre cada par de nodos del 
grafo no dirigido de la Figura 4.2 (b). Por ejemplo, algunos 


de los caminos entre A a FI son; 


A - E - D - FI, de longitud 3, 
A-B-C-D-H, de longitud 4, y 
A-E-F-G-D-H, de longitud 5. 
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Notese que en un grafo dirigido han de tenerse en cuenta las direcciones de las 
aristas para formar un camino. Por ejemplo, en el grafo dirigido de la Figura 4.2(a) 
existe un camino de A a C (A — ► D — > B — > C), pero no existe ningun camino que una 
los nodos en sentido inverso. 




Camino cerrado: 

Un camino (Xil Xir ) se dice que es cerrado si el nodo inicial coincide con el 
final, esdecir, Xil = Xir . 

Ejemplo 

Caminos cerrados. El camino D — ► G ^ F — ► D enel grafo 
dirigido de la Figura 4.3(a) es un camino cerrado. El grafo no 
dirigido dado en la Figura 4.3 (b) contiene varios caminos 
cerrados como, por ejemplo, el camino 
A-B-C-D-E-A. 



Si un camino contiene un nodo mas de una vez, entonces el camino contiene un sub- 
camino cerrado. Por ejemplo, en el grafo de la Figura 4.3(b), el camino C - D - E - F 
- G - D - H contiene dos veces el nodo D. Por tanto, este camino ha de contener 
un sub-camino cerrado: D -E -F -G-D. Eliminando este camino cerrado, se puede 
hallar un camino mas corto entre los nodos extremos, C - D - H. 



FIGURA 4.3. Ejemplos de caminos cerrados en un grafo dirigido (a) y en un grafo no 

dirigido (b). 
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Caracteristicas de los grafos no dirigidos 
Definiciones y conceptos basicos 

Grafo completo. Un grafo no dirigido se denomina 
completo si contiene una arista entre cada par de nodos. 


Por tanto, existe un unico grafo completo de n nodos. Este grafo se denota por Kn. 
Por ejemplo, la Figura 4.4 muestra una representation grafica de K5. 




FIGURA 4.4. Grafo completo de cinco nodos. 


Conjunto completo. Un subconjunto de nodos S de un grafo G se denomina 
completo si existe una arista en G para cada par de nodos en S. 

Una consecuencia inmediata de esta definition es que cualquier par de nodos 
adyacentes en un grafo forma un conjunto completo. 

Por ejemplo, el grafo de la Figura 4.3(b) no contiene conjuntos completos con mas de 
dos nodos. Por el contrario, el grafo mostrado en la Figura 4.5(a) contiene dos 
subconjuntos completos de tres nodos: {D, E, G} y {E, F, G}. 


Los conjuntos completos maximales de un grafo desempenan un papel fundamental 
en la caracterizacion de su estructura topologica. 

Conglomerado: Un conjunto completo de nodos C se denomina un conglomerado si 
no es subconjunto propio de otro conjunto completo, es decir, si es maximal. 
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Ejemplo de Conglomerados. El grafo mostrado en la Figura 4.5(a) 
Contiene los siguientes conglomerados: 

Cl = {A. B}, C 2 = { D.C }, c 3 = 

{a D\. C 4 = {D.H}. C 5 = {D.E.G}. C G = {E,FA 



Sin embargo, si se anade alguna arista al grafo, alguno de estos conglomerados y no 
ser grafo sera' un conjunto maximal y el conjunto de conglomerados del nuevo 
distinto. Por ejemplo, en el grafo de la Figura 4.5(b), obtenido anadiendo tresaristas al 
grafo de la Figura 4.5(a), los conjuntos Cl , C2 , C3 y C7 ya no son completos. El 
nuevo grafo contiene solamente cinco conglomerados: 

Ci = \A. B.D, E\. C 2 = f B,aD\ , C 3 = {D.H}, C 4 = 

{D.E, G}, y C 5 = {E : F\G}. 



FIGURA 4.5. Ejemplo de los conglomerados asociados a dos grafos distintos. 


Bucle. Un bucle es un camino cerrado en un grafo no dirigido. 

Ejemplo de Bucle: Considerese el grafo no dirigido mostrado en la Figura 4.5 (b). El 
' camino cerrado A-B-C-D-E-Aesun bucle de longitud 5. Observese que si en | 
. un bucle se reemplaza un camino entre dos nodos por un camino alternative, se 


obtiene un nuevo bucle. Por ejemplo, si se reemplaza la arista D-E por el camino 
D-G-F -E en el bucle anterior, se obtiene un nuevo bucle de longitud 7: A - B - C - 
D-G-F-E-A. 


I 
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Vecinos de un nodo. El conjunto de nodos adyacentes a un nodo Xi en un grafo no 
dirigido se denomina conjunto de vecinos de 

X it Vee(Xi) = {Xj | A, e Ady{X j} 

Notese que en el caso de grafos no dirigidos, el conjunto de nodos adyacentes a un 
nodo dado coincide con el conjunto de vecinos de dicho nodo. Por ejemplo, los nodos 
sombreados, {A, D, F}, en la Figura 4.6 son los vecinos del nodo E. 



FIGURA 4.6. Conjunto de vecinos del nodo E. 


Frontera de un conjunto de nodos: La union de los conjuntos de vecinos de los 
nodos de un conjunto dado, S, excluyendo los nodos de S, se denomina la 
frontera de S y se denota por F rn(S). 

Frn{S)= ( (J FecCXi)} \& 

\x 4 es / 

Donde X \ S es el conjunto de nodos de X excluyendo los de S. 

Por ejemplo, los nodos sombreados en la Figura 4.7, {A, C, F, G, H }, son la 
frontera del conjunto {D, Ej.En el caso de que S contenga un unico nodo, la 
frontera se reduce al conjunto de vecinos. 
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Tipos de grafos no dirigidos 

En muchas situaciones practicas es importante conocer si 
existe un camino entre un par de nodos dados. Por 
ejemplo, en el campo de los sistemas expertos, los grafos 
se utilizan para representar relaciones de dependencia 
entre las variables que componen el sistema. En estos casos, es muy util conocer el 
numero de posibles caminos entre dos nodos, a efectos de entender la estructura de 
dependencia contenida en el grafo. Desde este punto de vista, una clasificacion util 
de los grafos debe tener en cuenta el numero de caminos distintos existentes entre 
cada par de nodos. 


f 

r 

r 


1 



FIGURA 4.7. Frontera del conjunto {D, E}. 



Grafos conexos no dirigidos. Un grafo no dirigido se denomina conexo si existe al 
menos un camino entre cada par de nodos. En caso contrario, el grafo se denomina 
inconexo. Por ejemplo, el grafo de la Figura 4.7 es un grafo conexo. Sin embargo, el 
grafo representado en la Figura 4.8 es inconexo pues, por ejemplo, no existe ningun 
camino entre los nodos A y F. Observese que el grafo mostrado en la Figura 4.8(a) 
parece conexo a primera vista, pues las aristas se cruzan ocultando este hecho. Esta 
caracteristica se refleja de forma mas directa en la representacion grafica de la 
Figura 4.8(b). 


FIGURA 4.8. Dos representaciones distintas del mismo grafo inconexo. 
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Un grafo inconexo puede dividirse en un conjunto de grafos conexos llamados 
componentes conexas. 

Por ejemplo, el grafo inconexo anterior contiene las componentes conexas {A, C, E} y 
{B, D, F }. Este hecho hace que, en la practica, se suponga que los grafos son 
conexos pues, en caso contrario, podria argumentarse sobre cada una de las 
componentes conexas del grafo de forma analoga. 

La complejidad topologica de un grafo aumenta con el numero de caminos distintos 
entre dos nodos. Por tanto, ademas de considerar la existencia de un camino entre 
dos nodos, se ha de considerar tambien el numero de caminos posibles. 


Arbol. Un grafo conexo no dirigido se denomina un arbol si existe un unico camino 
entre cada par de nodos. 

De la definition anterior se deduce que un arbol es un grafo conexo, pero si se 
elimina una cualquiera de sus aristas, el grafo se vuelve inconexo. De forma similar, 
se puede deducir que un arbol no contiene bucles, pero si se anade una arista 
cualquiera al grafo se forma un bucle. 



77 


TEMA4 


Tipos 

de QfdfOS 

Dirigidos 




Competencia: 

Emplear grafos definidos en procesos de 
sistemas expertos. 









UN/. 


JD l 

E 


UNIVERSIDAD PRIVADA TELESUP 


© 


T^ma 04: Tipos d£ Gra/os f)irigidos 


Grafos dirigidos conexos: Un grafo dirigido se denomina 
conexo si el grafo no dirigido asociado es conexo; en caso 
contrario se denomina inconexo. 

Arboles y grafos multiplemente conexos: Un grafo dirigido 
conexo se denomina arbol si el grafo no dirigido asociado es 
un arbol; en caso contrario se denomina multiplemente conexo. Grafos cfclicos y 
aciclicos: Un grafo dirigido se denomina cfclico si contiene al menos un ciclo; en 
caso contrario se denomina grafo dirigido aciclico. 



Los grafos dirigidos aciclicos jugaran un papel muy importante mas 
adelante, pues seran la base para construir los modelos 
probabilisticos conocidos como Redes Bayesianas. Dentro de 
los grafos dirigidos, los arboles suelen clasificarse en dos tipos, 
dependiendo del numero de aristas que convergen en un 
mismo nodo. Grafos simples y poliarboles: Un arbol dirigido se 
denomina un arbol simple si cada nodo tiene como maximo un padre; en caso 
contrario se denomina un poliarbol. 



La Figura 4.17 muestra un ejemplo de un arbol simple y un ejemplo de un poliarbol. 
La Figura 4.18 muestra un grafo cfclico y uno multiplemente conexo. La Figura 4.19 
muestra de modo esquematico estos tipos de grafos dirigidos. 
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FIGURA 4.17. Ejemplos de grafos dirigidos: arbol simple (a) y poli arbol (b). 
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FIGURA 4.18. Ejemplos de grafos dirigidos: grafo ciclico (a) y multiplemente 

conexo (b). 


Grafos triangulados 

Los grafos triangulados son un tipo especial de grafos no 
dirigidos que tienen muchas aplicaciones practicas 
interesantes en varios campos. Los grafos triangulados 
tambien reciben el nombre de circuitos rfgidos y grafos 
cordales. Cuerda de un bucle: Una cuerda es una arista 
que une dos nodos de un bucle y que no pertenece al bucle. Por ejemplo, en el grafo 
de la Figura 4.20, la arista E - G es una cuerda del bucle E-F-G-D-E. 
Observese que la cuerda divide el bucle en dos bucles menores: E-F-G-EyE- 
G - D - E. Por otra parte, el bucle A-B-C-D-E-Ano contiene ninguna cuerda. 



Dada su estructura, los bucles de longitud 3 son los unicos que no pueden poseer 
cuerdas. Por ello, estos son los menores elementos en los que puede 
descomponerse un bucle mediante la incorporation de cuerdas en el grafo. 


Los bucles de longitud 3 se denominan triangulos. 



FIGURA 4.20. Ejemplo de un bucle con una cuerda. 


80 




UN/. 




ID 1 

E 


UNIVERSIDAD PRIVADA TELESUP 


Grafo triangulado: Un grafo no dirigido se denomina triangulado, o cordal, si cada 
bucle de longitud mayor o igual que cuatro contiene al menos una cuerda. Ejemplo de 
un Grafo triangulado. La Figura 4.21(a) muestra un grafo triangulado. El grafo 
contiene dos bucles de longitud cuatro, A-B -E -C - A y B -C -E -D -B, y un bucle 
de longitud cinco, A -B -D -E -C -A, y cada uno de ellos tiene al menos una cuerda. 


Por otra parte, el grafo de la Figura 4.21(b) no es triangulado, pues contiene al 
bucle A-B-C-D-E-A, que no posee ninguna cuerda. 




FIGURA 4.21. Ejemplo de grafo triangulado (a) y no triangulado (b). 


Si un grafo no es triangulado, es posible convertirlo en triangulado anadiendo 
cuerdas que dividan los bucles. Este proceso se denomina rellenado o triangulacion. 
Es importante destacar que triangular un grafo no consiste en dividirlo en triangulos. 
Por ejemplo, el grafo de la Figura 4.21(a) es triangulado y, por tanto, no necesita la 
adicion de aristas extra, como aquellas que se indican mediante Ifneas de puntos en 
la Figura 4.22. 



FIGURA 4.22. Triangular no significa dividir en triangulos. 
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Puesto que un bucle puede romperse de varias formas distintas con una cuerda, 
existen varias formas distintas de triangular un grafo. Por ejemplo, los dos grafos 
mostrados en la Figura 4.23 corresponden a dos triangulaciones distintas asociadas 
con el grafo de la Figura 4.21(b). 



FIGURA 4.23. Dos triangulaciones distintas del mismo grafo. Las lineas de 
puntos representan las cuerdas anadidas. 



82 





Ledums < Recomendadas 



❖ ESTRUCTURA DE UN SISTEMA EXPERTO 

https ://docs.qooqle.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbn 

xcibGNodWN8Z3a6NiZiOGY2ZThiNTJhODJk 


❖ DESCUBRIMIENTO DE CONOCIMIENTO BASADO EN GRAFOS 

http://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/arafos.pdf 


Adividadesu TEjercicios 




En un documento en Word explique la relacion entre la probabilidad y los 
sistemas (S.) expertos (E.). Muestre dos ejemplos concretos. 

Envfalo a traves de "Probabilidades en S. £.". 

En un documento en Word presente tres ejemplos diferentes sobre como 
se aplica los grafos en sistemas expertos y describa su aplicacion en 
cada uno. 

Envfalo a traves de "Grafos". 
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1) El conocimiento de la ocurrencia de un suceso puede modificar las - 
de otros sucesos. 

a. Informaciones. 

b. Ecuaciones. 

c. Condiciones. 

d. Variables. 

e. Probabilidades. 

2) Una urna tiene ocho bolas rojas, 5 amarilla y siete verdes. Si se extrae una 
bola al azar calcular la probabilidad de no sacar amarilla. 

a. 5/20 

b. 1/20 

c. 2/5 

d. 3/20 

e. 4/5 

3) Una urna contiene tres bolas rojas y siete blancas. Se extraen dos bolas al 
azar. Hallar la probabilidad de extraer dos rojas. 

a. 9/100 

b. 1/200 

c. 1/3 

d. 3/20 

e. 9/400 

4) La base de conocimiento de un sistema experto probabilistico consiste en: 

a. Un conjunto de datos y una funcion de probabilidad. 

b. Un conjunto de conocimientos y una funcion de probabilidad. 

c. Un conjunto de variables y una funcion de probabilidad. 

d. Un conjunto de datos y conocimientos. 

e. Un conjunto de variables y datos. 

5) En el modelo de sintomas dependientes: 

a. Los sintomas son independientes. 

b. El conjunto de datos son independiente. 

c. El conjunto de variables son dependientes. 

d. Las enfermedades son independientes. 

e. La funcion de probabilidad es dependiente. 
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6) En los grafos los conjuntos pueden ser representados por: 

a. Nodos. 

b. Graficas. 

c. Nulos. 

d. Vacfos. 

e. Comprension. 

7) Una caracteristica de un grafo dirigido es: 

a. Tienen nodos dirigidos. 

b. Tiene aristas dirigidas. 

c. Tiene los conjuntos dirigidos. 

d. Tiene grafos nodos vacios. 

e. Su fuerza para entrar en un sistema. 

8) Se dice que un camino es cerrado 

a. Cuando existen bucles. 

b. Cuando el nodo final es igual que el nodo inicial. 

c. Cuando no hay salida. 

d. Cuando no hay inicio. 

e. Cuando no hay caminos. 

9) Los grafos dirigidos aciclicos son la base para construir 

a. Las redes de Ishikawa. 

b. Aristas Bayesianas. 

c. Base de datos. 

d. Base de conocimientos. 

e. Los modelos probabilfsticos. 

10) Los grafos triangulados tambien reciben el nombre de: 

a. intersection dinamica. 

b. Base de conocimientos. 

c. Circuitos rfgidos. 

d. Redes bayesianas. 

e. Redes perceptron. 


fysumen 


UNIDAD DE APREND1ZAJE II: 

IB£^£@(D© BKF 


La probabilidad es un metodo mediante el cual se obtiene la frecuencia de un suceso 
determinado mediante la realization de un experimento aleatorio, del que se conocen 
todos los resultados posibles, bajo condiciones suficientemente estables. La teorfa de 
la probabilidad se usa extensamente en los sistemas expertos. 


La base de conocimiento de un sistema experto probabilistico consiste en un conjunto 
de variables, {XI,..., Xn}, y una funcion de probabilidad conjunta definida sobre ellas, 
p(x1 ,..., xn). Por ello, para construir la base de conocimiento de un sistema experto 
probabilistico, se necesita definir la funcion de probabilidad conjunta de las variables. 


Supongase un conjunto de objetos X = {XI , X2 ,..., Xn } que pueden relacionarse entre 
si. El conjunto X puede ser representado graficamente por una coleccion de nodos o 
vertices, asociando un nodo a cada elemento de X . Estos nodos pueden conectarse 
por aristas, indicando las relaciones existentes entre los mismos. El concepto de grafo 
puede definirse de forma mas general. Por ejemplo, puede permitirse que dos nodos 
esten conectados por mas de una arista, o incluso que un nodo este conectado 
consigo mismo. 


Un grafo dirigido se denomina conexo si el grafo no dirigido asociado es conexo; en 
caso contrario se denomina inconexo. Arboles y grafos multiplemente conexos: Un 
grafo dirigido conexo se denomina arbol si el grafo no dirigido asociado es un arbol; en 
caso contrario se denomina multiplemente conexo. Grafos ciclicos y aciclicos: Un grafo 
dirigido se denomina ciclico si contiene al menos un ciclo; en caso contrario se 
denomina grafo dirigido aciclico. 
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a) Presentation v contextualizacion 

Los temas que se tratan en la presente unidad tematica, tienen por finalidad que el 

estudiante conozca los algoritmos para grafos que necesitan un mecanismo de 
busqueda para explorar los nodos y aristas de un grafo. Estos metodos son la base 
para la construccion de los algoritmos. La exploration de un grafo comienza en un 
nodo inicial y consiste en la definition de un criterio para moverse hacia adelante y 
hacia atras a traves de las aristas del grafo, estos se pueden ejecutar siguiendo 
modelos probabilfsticos. 

b) Competencia 

Describe los modelos probabilisticos y graficos en sistemas expertos para el 
desarrollo de los calculos. 

c) Capacidades 

1. Interpreta la construccion de modelos probabilfsticos 

2. Describe los modelos definidos graficamente empleando sus tecnicas. 

3. Aplica las Tecnicas y herramientas formales de analisis de sistemas desde los 
modelos definidos graficamente. 

4. Emplea las extensiones de los modelos graficos para desarrollar de manera 
tecnica las probabilidades. 

d) Attitudes 

S Muestra autonomfa para resolver tus calculos aplicando modelos 
probabilfsticos. 

S Iniciativa para profundizar y ampliar los conocimientos con respecto a los 
modelos probabilfsticos. 

e) Presentation de Ideas basitas y tontenido esentiales de la Unidad: 

La Unidad de Aprendizaje 03: Modelos Probabilisticos y Graficos, comprende el 
desarrollo de los siguientes temas: 

TEMA 01 : Construccion de Modelos Probabilisticos. 

TEMA 02: Modelos Definidos Graficamente I. 

TEMA 03: Modelos Definidos Graficamente II. 

TEMA 04: Extensiones de los Modelos Graficos. 
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Uesarrollo de los Temas 



T £ma 01: Constraeeion d£ Modplos 
probabilistieos 


METODOS DE BtiSQUEDA 



Muchos algoritmos para grafos necesitan un mecanismo de 
busqueda para explorar los nodos y aristas de un grafo. Por 
ejemplo, entre otras cosas, los algoritmos de busqueda pueden 
ser utilizados para obtener un camino entre dos nodos, o para 
buscar un bucle o ciclo en un grafo. 


Estos metodos son la base para la construccion de los algoritmos introducidos en 
esta seccion. La exploration de un grafo comienza en un nodo inicial y consiste en la 
definition de un criterio para moverse hacia adelante y hacia atras a traves de las 
aristas del grafo, pasando de un nodo a un nodo vecino en cada etapa. 


Por tanto, la diferencia entre los distintos metodos de 
busqueda radica en el criterio elegido para moverse de 
un nodo a otro. 

❖ Metodo de busqueda en profundidad: En cada etapa 
del metodo de busqueda en profundidad se visita alguno 
de los vecinos no visitados del nodo actual donde los numeros indican el orden 
en que se visitan los nodos. En caso de que el nodo actual no tenga ningun 
vecino no visitado, el algoritmo vuelve atras al nodo visitado anteriormente y el 
proceso de busqueda continua hasta que todos los nodos han sido visitados. 



❖ Metodo de busqueda en anchura: El metodo de busqueda en anchura 
visita los nodos del grafo capa a capa, comenzando en un nodo inicial y 
visitando, en la primera etapa todos los vecinos del nodo inicial. Despues, se 
selecciona alguno de estos vecinos como nuevo nodo y se repite el proceso 
(ver Figura 4.46 (b), donde los numeros indican el orden en que se visitan los 
nodos). 
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FIGURA 4.46. Ilustracion del metodo de busqueda en profundidad (a) y de 
busqueda en anchura (b). Los numeros indican el or den en que se visitan I os 
nodos. 


r 


Algoritmos de busqueda de caminos 

Dado un grafo G = (X, L), se trata de encontrar un camino del nodo Xi al nodo Xj , en 
caso de que exista. En esta seccion se introducen dos algoritmos de busqueda de 
caminos basados en las dos estrategias anteriores. Para este proposito es mas 
conveniente y eficiente utilizar la representacion de un grafo por medio de los 
conjuntos de adyacencia. El grafo no dirigido de la Figura 4.47(a) puede ser 
representado por (X, L), donde X es el conjunto de nodos {A, B, C, D, E, F, G} y L es 
el conjunto de aristas {LI,..., L8}. Sin embargo, desde un punto de vista 
computacional, la representacion del grafo por medio de sus conjuntos de adyacencia 


A 


v: 


es mas adecuada: 



Ady(A) = {B, C, D}, 
Ady(B) = {A, E}, 
Ady(C ) = {A, F }, 
Ady(D) = {A, F }, 
Ady(E) = {B, G}, 
Ady(F) = {C, D, G}, 
Ady(G) = {E, F }. 
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Esta representacion es mas eficiente para los metodos de busqueda pues 
evita tener que comprobar todas las aristas del grafo para elegir el siguiente 
nodo del proceso. 


El grafo dirigido de la Figura 4.47(b) tiene los conjuntos siguientes de adyacencia: 
Ady(A) = {B, C, D}, Ady(B) = {E}, Ady(C ) = {F }, 

Ady(D) = {F }, Ady(E) = {G}, Ady(F ) = {G}, Ady(G) = cp. 

Otra propiedad importante de los conjuntos de adyacencia es que proporcionan una 
representacion independiente del caracter dirigido o no dirigido del grafo. Por 
ejemplo, si nos diesen el grafo dirigido de la Figura 4.47 (b) y se quisiese realizar 
alguna operacion de caracter no dirigido (obtener bucles, caminos no dirigidos, etc.), 
bastaria con considerar los conjuntos de adyacencia correspondientes al grafo no 
dirigido asociado. 


Basandose en las dos tecnicas de busqueda descritas anteriormente, es posible 
definir de forma sencilla los siguientes algoritmos de busqueda de caminos: 
busqueda de caminos en profundidad y busqueda de caminos en anchura. 



(a) 


(b) 


FIGURA 4.47. Ejemplo de un grafo no dirigido (a) y dirigido (b). 
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Comprobando la Conexion de un Grafo 

Los metodos de busqueda descritos anteriormente tambien 
pueden utilizarse para comprobar si un grafo es conexo. La 
idea es realizar una busqueda exhaustiva de los nodos del 
grafo, obteniendo el conjunto S de nodos que son 
alcanzables desde un nodo inicial. Si el grafo es conexo, 
entonces el del conjunto S contener todos los nodos del 
grafo, en caso contrario el del subconjunto de nodos S solo contendra la componente 
conexa del grafo que contiene al nodo inicial. 



Los Algoritmos pueden ser utilizados para realizar una busqueda exhaustiva 
considerando el mismo nodo inicial y final, es decir, el conjunto Visitados resultante 
de la ejecucion de estos algoritmos contendra la componente conexa 
correspondiente a Xi . 




FIGURA 4.52. Busqueda de un camino entre los nodos A y G con el algoritmo de 
busqueda en profundidad (a) y en anchura (b). 


Busqueda de componentes conexas 

• Datos: Un grafo (X, Ady). 

• Resultado: El conjunto de componentes conexas C de (X, Ady). 

1 . Iniciacion: Definir V isitados = cp, C = cp. 

2. Si X \ Visitados = cp, finalizar y devolver C ; en caso contrario, elegir un 
nodo de Xi e X \ Visitados e ir a la Etapa 3. 

3. Utilizar el Algoritmo para realizar una busqueda exhaustiva del grafo (X, 
Ady) comenzando en el nodo Xi y obtener el conjunto S de nodos 
visitados. 

4. Anadir S a C. Anadir a Visitados todos los nodos en S. Ir a la Etapa 2. 
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Si el conjunto C contiene una sola componente conexa, entonces el grafo es 
conexo; en caso contrario, el grafo es inconexo y C contiene todas las 
componentes conexas del grafo. 


Busqueda de bucles y ciclos 

Los algoritmos de busqueda de caminos pueden 
modificarse facilmente para hallar bucles o ciclos en un 
grafo. En esta seccion se muestran las modificaciones 
necesarias para adaptar el algoritmo de busqueda en 
profundidad para esta tarea. Dado que el objetivo de 
este algoritmo es hallar un camino cerrado (un bucle o 
un ciclo), se puede utilizar el Algoritmo comprobando en cada etapa si hay algun 
nodo contenido en el camino que tambien este contenido en la lista de nodos 
adyacentes del nodo actual. Los caminos cerrados resultantes seran bucles (si el 
grafo es no dirigido) o ciclos (si el grafo es dirigido). El algoritmo selecciona un nodo. 


Construction del modelo probabilfstico. Una vez que se conoce un conjunto de 
variables relevantes para el problema a analizar, y que se ha adquirido suficiente 
information para su definicion, el siguiente paso consiste en la definicion de una 
funcion de probabilidad conjunta que describa las relaciones entre las variables. Este 
es, quizas, el paso mas critico y diffcil en el desarrollo de un sistema experto: 
a) Es critico porque la bondad de los resultados del sistema experto depender de la 
precision con que se haya definido la funcion de probabilidad conjunta, es decir, 
la calidad de los resultados no podra superar a la calidad del modelo. 

Por tanto, una incorrecta definicion del modelo probabilfstico redundara en un 
sistema experto que dara conclusiones erroneas y/o contradictorias. 



b) La estructura de la funcion de probabilidad conjunta (es decir, la estructura de 
dependencia e independencia entre las variables) no suele ser conocida en la 
practica. Por tanto, habra de ser inferida del conjunto de datos obtenidos 
previamente. Por tanto, la calidad del modelo tampoco podras superar la calidad 
de los datos relevantes disponibles. 
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c) La estructura del modelo probabilfstico puede depender de un numero muy 
elevado de parametros que complican su definicion. Cuanto mayor sea el numero 
de parametros mas complicada sera la asignacion de valores numericos 
concretos en el proceso de definicion del modelo. En cualquier caso, esta 
asignacion habra de ser realizada por un experto, o estimada a partir de la 
information disponible. 


Criterios de separation grafica 

Los grafos son herramientas muy potentes para 

describir de forma intuitiva las relaciones de 
dependencia e independencia existentes en un conjunto 
de variables {XI,..., Xn}. Por tanto, una forma de definir 
un modelo probabilfstico es partir de un grafo que 
describa las relaciones existentes entre las variables. 
Para comprobar cuales, de entre todas las posibles relaciones de independencia 

condicional, son satisfechas por el grafo. Los criterios de separation grafica son las 

reglas para entender como pueden codificarse dependencias e independencias en un 
grafo. Estos criterios dependen del tipo de grafo (dirigido o no dirigido) que se este 
considerando. 




Separation en grafos no dirigidos 

En muchas situaciones practicas, las relaciones 
existentes entre un conjunto de variables (XI,..., Xn} 
pueden ser representadas por un grafo no dirigido G. 

Cada variable puede ser representada por un nodo 
del grafo. Si dos variables son dependientes, esta 
relation puede representarse por un camino que 
conecte estos nodos. Por otra parte, si dos variables son 
independientes, entonces no debera existir ningun camino que 
una estos nodos. De esta forma, el concepto de dependencia entre variables puede 
relacionarse con el concepto de conexion entre nodos. 
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De forma similar, si la dependencia entre las variables X e 
Y es indirecta, a traves de una tercera variable Z (es decir, 
si X e Y son condicionalmente dependientes dada Z), el 
nodo Z se representara de forma que no intersecte todos 
los caminos entre X y Y, es decir, Z no es un conjunto de 
corte (en ingles, cutset) de X e Y. 


Esta correspondencia entre dependencia condicional y 
separacion en grafos no dirigidos constituye la base de la teoria 
de los campos de Markov (Isham (1981), Lauritzen (1982), 
Wermuth y Lau- ritzen (1983)), y ha sido caracterizada 
axiomaticamente de formas diversas (Pearl y Paz (1987)). 

Para representar relaciones de independencia condicional por 
medio de grafos no dirigidos se necesita definir de forma precisa un criterio de 
separacion apropiado, basandose en las ideas anteriormente expuestas. Este criterio 
se conoce como criterio de U-separacion. A continuation se da una definition de 
este criterio y un algoritmo que permite su aplicacion. 



U-separacion: Sean X, Y y Z tres conjunto disjuntos de 
nodos de un grafo no dirigido G. Se dice que Z separa X e 
Y si y solo si cada camino entre nodos de X y nodos de Y 
contiene algun nodo de Z. Cuando Z separe X e Y en G, y 
se denotar l(X, Y |Z) G para indicar que esta relation de 
independencia se deriva de un grafo G; en caso contrario, 
se denotara por D(X, Y | Z) G, para indicar que X e Y son 
condicionalmente dependientes dada Z, en el grafo G. 

Se dice que X es graficamente independiente de Y dada Z. Si Z separa X e Y. Por 
tanto, el criterio de U-separacion permite obtener la lista de relaciones de 
independencia asociadas a un grafo no dirigido. 
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ALGUNAS PROPIEDADES DE LA INDEPENDENCE CONDICIONAL 

Hasta ahora se han introducido tres modelos distintos para definir relaciones de 
independencia condicional: modelos probabilisticos, modelos graficos no dirigidos, y 
modelos graficos dirigidos. En esta seccion se analizan algunas propiedades de la 
independencia condicional que cumplen algunos de estos modelos. 



Estas propiedades permiten obtener nuevas relaciones de 
independencia a partir de un conjunto inicial de 
relaciones de independencia, dado por uno de estos 
modelos. Por ejemplo, dada la funcion de probabilidad 
conjunta p(x1,..., xn) de un conjunto de variables {XI,..., Xn}. 


Modelos de dependencia 

Grafoide: Un grafoide es un conjunto de relaciones de independencia que es 
cerrado con respecto a las propiedades de simetria, descomposicion, union debil, 
contraccion e interseccion. 

Semigrctfoide. Un semigrafoide es un conjunto de relaciones de independencia 
que es cerrado con respecto a las propiedades de simetria, descomposicion, union 
debil y contraccion. 


Por tanto, un grafoide debe satisfacer las cinco primeras propiedades, mientras 
que un semigrafoide debe satisfacer solo las cuatro primeras. 


Dada una lista inicial de independencias, un grafo, o una funcion de probabilidad 
conjunta, siempre es posible determinar que relaciones de independencia se cumplen 
en el modelo y, por tanto, determinar su estructura cualitativa. Por tanto, estos tipos 
de modelos definen clases particulars de los denominados modelos de 
dependencia. 
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Modelo de Dependencia. Cualquier modelo M de un conjunto de variables {XI 
Xn } mediante el cual se pueda determinar si la relacion I (X, Y |Z ) es o no cierta, 
para todas las posibles ternas de subconjuntos X, Y y Z , se denomina modelo de 
dependencia. 

Modelo de dependencia probabilistico: Un modelo de dependencia M se 
denomina probabilistico si contiene todas las relaciones de independencia dadas 
por una funcion de probabilidad conjunta p(x1 xn). 


Modelo de dependencia probabilistico no extremo: Un 

modelo de dependencia probabilistico no extremo es un 
modelo de dependencia probabilistico obtenido de una 
funcion de probabilidad no extrema, o positiva; es decir, 
p(x1,...,xn) toma valores en el intervalo abierto (0, 1). 

Dado que todas las funciones de probabilidad satisfacen las 
cuatro primeras propiedades de independencia condicional, todos los modelos de 
dependencia probabilisticos son semigrafoides. 



Por otra parte, dado que solo las funciones de probabilidad no extremas 
satisfacen la propiedad de interseccion, solo los modelos de dependencia 
probabilisticos no extremos son grafoides. 



Modelo de dependencia compatible con una 
probabilidad: Un modelo de dependencia M se dice 
compatible con una funcion de probabilidad p(x1,...,xn) si 
todas las relaciones de independencia derivadas M son 
tambien satisfechas por p(x1,...,xn). 
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Observese que un modelo de dependencia compatible con una probabilidad es aquel 
que puede obtenerse de una funcion de probabilidad conjunta p(x1 xn), pero sin 
necesidad de ser completo, es decir, no tienen por que contener todas las relaciones 
de independencia que pueden obtenerse de p(x1 ,...,xn). 



Dado que toda funcion de probabilidad cumple las cuatro primeras propiedades de la 
independencia condicional, si un modelo de dependencia M 
es compatible con una funcion de probabilidad p(x1,...,xn), 
entonces el menor semigrafoide generado por M 
tambien debe ser compatible con p(x1 ,...,xn). Por tanto, 
un problema interesante desde el punto de vista practico 
es calcular el menor semigrafoide generado por un modelo de 
dependencia M. 



Construction de un modelo probabilfstico 

El problema de construir una funcion de probabilidad para un 
conjunto de variables puede simplificarse notablemente 
considerando una factorizacion de la probabilidad como 
producto de funciones de probabilidad condicionada mas 
sencillas. El grado de implicacion dependera de la estructura 
de independencia (incondicional o condicional) existente entre 
las variables del modelo. Por tanto, para encontrar una factorizacion apropiada del 
modelo probabilfstico, primero se necesita conocer su estructura de independencia. 



Esta estructura de independencia (modelo de dependencia) caracteriza la 
estructura cualitativa de las relaciones entre las variables. 
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Por ejemplo, se necesita definir que variables son independientes y/o 
condicionalmente independientes de otras y cuales no. La estructura de 
independencia y, por tanto, la factorizacion asociada al modelo probabilistico, 
puede ser obtenida de varias formas: 

1. Modelos definidos graficamente: Como se ha visto en las secciones 
anteriores, las relaciones existentes entre las variables de un conjunto pueden 
ser descritas mediante un grafo. Posteriormente, utilizando un criterio de 
separation apropiado, se puede obtener el conjunto de relaciones de 
independencia asociado. Estos modelos de dependencia se conocen como 
. modelos definidos graficamente, y tienen como ejemplos mas importantes < 
redes de Markov, y las redes Bayesianas. 




Las tareas de comprobar la validez de un grafo, entender sus 
implicaciones, y modificarlo de forma apropiada han de ser i|E9 
realizadas partiendo de la comprension de las relaciones de 
dependencia e independencia existentes en el conjunto de 
variables. 

2. Modelos definidos por listas de independencias: Los grafos son 
herramientas muy utiles para definir la estructura de independencia de un 
modelo probabilistico. Una description alternativa a los modelos graficos 
consiste en utilizar directamente un conjunto M de relaciones de independencia 
que describan las relaciones entre las variables. Este conjunto puede ser 
definido por un experto a partir de sus opiniones sobre las relaciones entre las 
variables del modelo. Cada una de las independencias del conjunto indica que 
variables contienen information relevante sobre otras y cuando el conocimiento 
de algunas variables hace que otras sean irrelevantes para un conjunto de 
variables dado. 


Este conjunto inicial de independencias puede ser completado incluyendo aquellas 
otras que cumplan una serie de propiedades de independencia condicional. El 
conjunto resultante puede ser finalmente utilizado para obtener una factorizacion de 
la funcion de probabilidad del modelo. 
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Los modelos resultantes se conocen como modelos definidos por listas de 
relaciones de independencia. 

3. Modelos definidos condicionalmente: Como alternativa a los modelos graficos 
y los modelos dados por listas de relaciones de independencia, la estructura 
cualitativa de un modelo probabilfstico puede venir dada por un conjunto de 
funciones de probabilidad marginales y condicionadas. 

P — \_Pl ( ^ 1 h ? 1 ) ■? ■ ’ ■ ? Pm (^m | ^m ) j" 


Sin embargo, las funciones de este conjunto no pueden 
definirse libremente, sino que han de satisfacer ciertas 
relaciones para ser compatibles y definir un unico 
modelo probabilfstico. Una ventaja de utilizar modelos 
graficos, o modelos definidos por listas de 
independencias, para construir un modelo probabilfstico es que estos modelos 
definen una factorizacion de la funcion de probabilidad como producto de funciones 
de probabilidad condicionada que determinan la estructura cualitativa del modelo 
probabilfstico. Normalmente, estas funciones condicionadas contienen un numero 
menor de variables que la funcion de probabilidad conjunta y, por tanto, el proceso 
de definicion del modelo probabilfstico es mas sencillo. 



Una vez que se conoce la estructura cualitativa del modelo probabilfstico (la 
factorizacion de la funcion de probabilidad), la estructura cuantitativa de un modelo 
particular se define mediante la asignacion de valores numericos a los parametros 
asociados a las funciones de probabilidad condicionada que intervienen en la 
factorizacion del modelo. Estos valores han de ser definidos por algun 
experto, o estimados a partir de un conjunto de datos. Por tanto, 
si la estructura cualitativa del modelo es desconocida, que 
es el caso habitual en la practica, entonces tanto la 
estructura cualitativa, como la cuantitativa (los parametros) 
han de ser estimadas a partir del conjunto de datos 
disponible (una base de datos, etc.). 




102 





Como resumen de todo lo anterior, la construccion de un modelo probabilistico 
puede ser realizada en dos etapas: 



1. Factorizar la funcion de probabilidad mediante un 
producto de funciones de probabilidad condicionada. 
Esta factorizacion puede obtenerse de tres formas 
distintas: 


2. Estimar los parametros de cada una de las funciones 
de probabilidad condicionada resultantes. 


Este proceso se ilustra de modo esquematico en la Figura 5.9. En este diagrama, 
una linea continua de un rectangulo A a un rectangulo B significa que cada miembro 
de A es tambien un miembro de B, mientras que una linea discontinua significa que 
algunos, pero no necesariamente todos, los miembros de A son miembros de B. El 
camino mas simple para definir un modelo probabilistico es comenzar con un grafo 
que se supone describe la estructura de dependencia e independencia de las 
variables. 



A continuacion, el grafo puede utilizarse para construir una 
factorizacion de la funcion de probabilidad de las 
variables. De forma alternativa, tambien puede 
comenzarse con una lista de relaciones de 
F independencia y, a partir de ella, obtener una 
factorizacion de la funcion de probabilidad. La 


factorizacion obtenida determina los parametros necesarios 


para definir el modelo probabilistico. Una vez que estos parametros han sido 
definidos, o estimados a partir de un conjunto de datos, la funcion de probabilidad 
que define el modelo probabilistico vendra como el producto de las funciones de 
probabilidad condicionada resultantes. 
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FIGURA 5.9. Diagrama mostrando las formas alternativas de definir un modelo 

probabilfstico. 


Por otra parte, si se conoce la funcion de probabilidad que define un modelo 
probabilfstico (que no es el caso habitual en la practica), se puede seguir el camino 
inverso y obtener varias factorizaciones distintas. Tambien se puede obtener la lista 
de independencias correspondiente al modelo comprobando cuales de todas las 
posibles relaciones de independencia de las variables son verificadas por la funcion 
de probabilidad. A partir del conjunto de independencias obtenido, tambien puede 
construirse una factorization de la familia parametrica que contiene a la funcion de 
probabilidad dada. 
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T^ma 03: Modelos f>efinidos Grafieamente 

II 



Se ha visto que el funcionamiento de un sistema experto 
probabilistico depende de la correcta definition del 
correspondiente modelo, que esta caracterizado por la 
funcion de probabilidad conjunta de las variables. Tambien 
f se ha visto que la estuctura general de una funcion de 
probabilidad conjunta involucra un excesivo numero de parametros. Por esta razon, 
se presentaron algunos modelos probabilisticos simplificados, que eran obtenidos 
imponiendo ciertas hipotesis de independencia globales sobre las variables. Sin 
embargo, estos modelos son restrictivos y solamente aplicables a problemas del tipo 
“enfermedades-smtomas”. 


En este capitulo se desarrolla la forma de obtener modelos probabilisticos mas 
generates por medio de grafos. La idea basica consiste en utilizar grafos (no dirigidos 
o dirigidos) para construir un modelo de dependencia que 
represente la estructura cualitativa del modelo probabilistico. De 
esta forma, los modelos resultantes son generates, pues se 
crean a partir de un modelo de dependencia “arbitrario”, y no 
de uno impuesto inicialmente. Conjuntos de variables son 
incondicionalmente o condicionalmente dependientes o 
independientes. 



Cada modelo probabilistico tiene asociado un modelo de dependencia M, que puede 
ser obtenido generando todas las relaciones de independencia condicional posibles 
para un conjunto de variables dado, y comprobando cuales de ellas se satisfacen 
para la funcion de probabilidad. Por ejemplo, si X, Y y Z son tres subconjuntos 
disjuntos y p(x|y, z) = p(x|z), para cada combination de valores de x, y y z, entonces 
se verifica la relation de independencia I (X, Y |Z ) y se puede con- cluir que X e Y 
son condicionalmente independientes dado Z . Por otra parte, si p(x|y, z) = p(x|z) 
para algunos valores x, y, z, entonces X e Y son condicionalmente dependientes 
■ dado Z. 
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Por tanto, una funcion de probabilidad contiene una descripcion completa 
(cuantitativa y cualitativa) de las relaciones entre las variables, mientras que el 
modelo de dependencia M asociado solo contiene una descripcion cualitativa. Por 
tanto, el termino modelo de dependencia probabilistico se refiere unicamente a un 
modelo de dependencia asociado a una funcion de probabilidad. 


Por otra parte, un modelo de dependencia puede ser definido de forma alternativa 
mediante un grafo (dirigido o no dirigido), una lista de 
relaciones de independencia, o un conjunto de funciones 
de probabilidad condicionada. Estas tres alternativas 
determinan tres metodologias diferentes para construir un 
modelo de dependencia: 
o Modelos definidos graficamente. 
o Modelos definidos por listas de independencias. 
o Modelos definidos condicionalmente. 




Estas tres metodologias son mas generates que los 
modelos presentados y pueden ser aplicadas, no solo a 
problemas de diagnostico medico (problemas tipo 
“sintoma-enfermedad”), sino tambien a problemas mas 
generates. Estas metodologias requieren ciertos 
conceptos previos, se ha visto que un conjunto de 
variables XI,..., Xn y sus relaciones pueden ser 
representados mediante un grafo, asociando cada variable a un 
nodo y cada relacion entre variables a una arista entre los nodos correspondientes. 
Por tanto, los terminos nodo y variable se utilizan de forma sinonimia. 





En algunas ocasiones, el orden de las variables (es decir, la direccion de las aristas) 
es importante en el grafo (grafos dirigidos) y en otras no (grafo no dirigido). Las 
representaciones graficas tienen la ventaja de mostrar explicitamente las relaciones 
entre las variables y conservar estas relaciones de forma cualitativa (es decir, para 
cualquier valor numerico de los parametros). 

Los modelos graficos son tambien mas intuitivos y faciles de entender. Se analizaron 
dos criterios graficos de separation distintos para obtener las relaciones de 
independencia definidas por los grafos dirigidos y los no dirigidos. Segun esta 
distincion, los modelos definidos bracamente pueden ser clasificados en dos grupos, 
dependiendo del tipo de grafo que se utilice: 

S Modelos de dependencia definidos por grafos no dirigidos. 

S Modelos de dependencia definidos por grafos dirigidos. 


Aunque existe un tercer tipo de modelos graficos que 
pueden ser representados por grafos mixtos (grafos que 
contienen aristas dirigidas y no dirigas). 



Se ha utilizado el termino dependencia en las definiciones 
anteriores para enfatizar que un grafo solo puede definir la 
estructura cualitativa del modelo. Una vez que se conoce 
esta estructura cualitativa, puede construirse una 


factorization de la funcion de probabilidad e identificarse el conjunto de parametros 
que definen el modelo. Los valores numericos de los parametros pueden ser dados 
por un experto, o estimados a partir de un conjunto de datos disponibles. 

Algunas definiciones y problemas 

Mapa perfecto. Un grafo G se dice que es un mapa perfecto de un modelo de 
dependencia M si cada relation de independencia obtenida de G tambien puede ser 
obtenida de M y viceversa, es decir, 


I{X. Y\Z) m <=> I{X.Y\Z) g & Z separa X de Y. 


Dependiendo del caracter dirigido o no dirigido del grafo G, los mapas perfectos 
se denominan mapas perfectos dirigidos o no dirigidos, respectivamente. 
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Ocho posibles grafos no dirigidos con tres variables. 




®— ® 





FIGURA 6.1 . Ocho posibles grafos no dirigidos con tres variables. 



El modelo de dependencia M del Ejemplo 6.1 tiene un mapa 
perfecto dirigido, a pesar de que no posee ningun mapa perfecto 
no dirigido. Se deja como ejercicio para el lector demostrar que el 
grafo dirigido mostrado en la Figura 6.2 es un mapa perfecto 
dirigido de M. En este caso, los grafos dirigidos son mas potentes 
que los no dirigidos. Sin embargo, no todo modelo de dependencia posee un mapa 
perfecto dirigido. El ejemplo siguiente muestra uno de estos modelos. 


I 



FIGURA 6.2. Mapa perfecto dirigido del modelo de dependencia Men (6.1) 

No existe ningun grafo dirigido aciclico D que sea mapa perfecto del modelo de 
dependencia M. 
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En los casos en los que no existe un mapa perfecto, es necesario asegurarse de que 
el modelo grafico que se utilice no posea ninguna independencia que no este 
contenida en el modelo, y que el numero de independencias del modelo que no sean 
reproducidas por el grafo sea mi'nimo. Esto motiva las siguientes definiciones. 


Mapa de independencia. Un grafo G se dice que es un mapa de independencia (I - 
mapa) de un modelo de dependencia M si 



Es decir, si todas las relaciones de dependencia derivadas de G son verificadas por 
M. Observese que un l-mapa G de un modelo de dependencia M incluye algunas de 
las independencias de M, pero no necesariamente todas. Entonces, se tiene 



Por tanto, cada modelo de dependencia tiene asociados un I 
-mapa y un D mapa triviales. Por ejemplo, cualquier grafo 
totalmente inconexo es un D-mapa trivial y cualquier grafo 
completo es un l-mapa trivial de cualquier modelo de 
dependencia. De esta forma, para que un grafo sea un 
mapa perfecto de un modelo, ha de ser simultaneamente un 



l-mapa y un D-mapa de ese modelo. 

l-mapa minimal: Se dice que un grafo G es un I mapa minimal de un modelo de 
dependencia M si es un I -mapa de M, pero pierde esta propiedad cuando se elimina 
una cualquiera de sus aristas. 

A pesar de que los modelos de dependencia y las representaciones graficas tienen 
numerosas aplicaciones mas alia de la probabilidad, el interes principal de este libro 
es la construction de modelos probabilisticos y, por tanto, estamos interesados en 
conocer la relacion existente entre las representaciones graficas y las funciones de 
probabilidad, es decir, la relacion existente entre las nociones formales de 
dependencia probabilistica y la estructura topologica de un de un grafo. 
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Una razon importante para representar la estructura de dependencia de un modelo 
mediante un grafo es que comprobar la conexion de un conjunto de variables en un 
grafo, es mas facil que comprobar la independencia condicional de un conjunto de 
variables utilizando las formulas de la Probabilidad. 

Un D- mapa garantiza que todos los nodos que esten conectados en el grafo seran 
por tanto dependientes; sin embargo, el grafo puede ocasionalmente representar 
desconectados algunos conjuntos de variables dependientes. 


Modelos de dependencia graficos no dirigidos 

En esta seccion se analiza la forma de definir 
modelos de dependencia utilizando grafos no 
dirigidos. Nuestro objetivo es encontrar un grafo que 
reproduzca tantas independencias asociadas a un 
modelo probabilfstico como sea posible. Se 
comienza con el problema de representar estos 
modelos por medio de mapas perfectos los mapas y, 
a continuation, se introduce un clase importante de 
modelos probabih'sticos definidos por grafos no 
dirigidos. Estos modelos se conocen por redes de Markov. 



De modelos a grafos no dirigidos 

En esta seccion se analiza el problema de representar 
modelos probabilfsticos utilizando grafos no dirigidos, 
es decir, se desea encontrar el grafo correspondiente a 
un modelo de dependencia probabilfstico. Como ya se 
ha visto, no todos lo modelos probabilfsticos de 
dependencia pueden ser representados por mapas 
perfectos no dirigidos. 
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MODELOS DEFINIDOS POR MULTIGRAFOS 
Interpretation de independencias en un multigrafo 


El primer problema relacionado con los modelos definidos por multigrafos es la 
interpretadon grafica de sus independencias. Las redes Bayesianas y de Markov son 
I -mapas de un cierto modelo de dependencia asociado al modelo probabilfstico 
correspondiente. Entonces, todas las independencias condicionales contenidas en el 
grafo tambien son independencias del modelo correspondiente. 




Por tanto, sera cierta en un multigrafo una relacion de 
independencia cualquiera si es cierta en alguno de los grafos 
que componen el multigrafo; en caso contrario sera falsa. Por 
tanto, el criterio grafico de separacion para multigrafos 
consiste en la aplicacion del criterio de U - separacion en los 
grafos no dirigidos que compongan el multigrafo y el criterio 


de D-separacion en los dirigidos. 


Reduction del conjunto de grafos 

El segundo problema de estos modelos es el de la redundancia en un multigrafo. En 
algunos casos, todas las independencias implicadas por un grafo del modelo pueden 
ser obtenidas a partir de los demas grafos. Por ejemplo, Shachter (1990b) introdujo 
algunas transformaciones gracias que permiten simplificar la estructura de los grafos 
eliminando independencias redundantes. 
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En algunos casos, el conjunto de grafos puede ser reducido a un conjunto menor que 
es una representation mas simple y eficiente del modelo. 

Grafos redundantes. Dados dos grafos G1 y G2 , se dice que G1 es redundante 
dado G2 si el conjunto de relaciones de independencia contenidas en G1 esta 
contenido en G2 . 


I 





FIGURA 7.3. Tres grafos dirigidos a ci'clicos que definen un multigrafo. 


El teorema siguiente muestra las condiciones para que dos grafos dirigidos 
sean redundantes. 

Redundancia en multigrafos dirigidos. Sean D1 y D2 dos grafos dirigidos aciclicos 
sobre el mismo conjunto de variables X, y sean G1 y G2 los grafos no dirigidos 
asociados respectivos. Entonces, D2 es redundante dado D1 si (a) G2 esta contenido 
en G1 , (b) cada v-estructura de D1 esta tambien contenida en D2 , y (c) cada v- 
estructura (Xi , Xj , Xk ) de D2 esta tambien contenida en D1 siempre que G1 
contenga el camino Xi - Xj - Xk . 
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Modelos definidos por listas de independencias 

Las listas de independencias constituyen una alternativa a los modelos graficos para 
la construccion de modelos probabilfsticos. Esta lista puede venir dada directamente 
por un experto en el tema a analizar, y representa las relaciones existentes entre las 
variables del modelo. 



En esta seccion se analiza la relacion entre una relacion de independencia en un 
modelo probabilfstico y una factorizacion de la 
funcion de probabilidad correspondiente. 

Esta relacion puede resumirse del modo siguiente: 

❖ Siempre se puede encontrar una 
factorizacion que contiene una relacion de 
independencia dada. 

❖ Una factorizacion puede implicar una o mas 
relaciones de independencia. 


De una relacion de independencia a una factorizacion. Considerese el conjunto de 
variables {XI , X2 , X3 , X4 } y supongase que cumplen la relacion de independencia 
I (XI , X2 |X3 ). La funcion de probabilidad correspondiente puede escribirse como 

p{x 1,3a, *3, a*) = p(x 2 , a?3 

= 1*1 ,*2,Z3)- (714) 

Donde la primera igualdad se ha obtenido considerando la particion de las variables 
{{X2 , X3 }, XI , X4} y aplicando la regia de la cadena a la funcion de probabilidad 
p(x), y la segunda igualdad se ha obtenido utilizando la relacion de independencia I 
(XI , X2 |X3), que implica p(x1 |x2 , x3) = p(x1 |x3). 


Por tanto, cualquier funcion de probabilidad que factorice segun (7.14) 
contiene, al menos, la relacion de independencia l(X1, X2 |X3). 
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Observese que la funcion de probabilidad podrfa contener tambien otras relaciones 
de independencia derivadas de los axiomas de la probabilidad (por ejemplo, la 
relacion de independencia simetrica I (X2, XI |X3)). Por tanto, la lista de 
independencias formada por una unica relacion de independencia es un l-mapa del 
modelo probabilfstico resultante. 


Existen listas de independencia que contienen varias relaciones de independencia y 
que pueden definir una unica factorizacion de forma colectiva. Un ejemplo de ello lo 
constituyen las listas causales. Dado el conjunto de variables X = {X1,...,Xn}, una lista 
causal definida sobre X es un conjunto de relaciones de independencia de la forma {I 
(Y1,B1\S1 |S1 (Yn, Bn\Sn |Sn)}, donde (Y1,...,Yn) es una permutacion de (XI,..., 
Xn } y Si c Bi = {Y1 Vi— 1}. 




Modelos probabilfsticos multifactorizados 

Hemos visto que la definition de una funcion de 
probabilidad mediante multigrafos y listas de relaciones 
de independencia se reduce a hallar la funcion de 
probabilidad compatible con un conjunto dado de 
factorizaciones. Por tanto, estos dos modelos son casos 
especiales de un tipo de modelos mas generales conocido como modelos 
probabilfsticos multifactorizados. 
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Modelos probabilfsticos multifactorizados: Un modelo probabilfstico multifactorizado 
sobre un conjunto de variables X ={X1,..., Xn}, es un conjunto de factorizaciones 
compatibles obtenidas aplicando la regia de la cadena. 



(7.28) 


Modelos multinomiales multifactorizados 

Estructura parametrica de una funcion de probabilidad 

Considerese el conjunto de variables discretas {XI Xn }, donde la variable Xi 
puede tomar los valores {0,...,ri}. Dado que las funciones de probabilidad 
conidicionada pa(ya|so), que definen las factorizaciones de la funcion de 
probabilidad, pueden ser consideradas como familias parametricas, una 
representacion apropiada de los parametros del modelo probabilfstico asociado a la 
factorizacion Besima viene dada por: 



(7.30) 


Donde s es una realizacion de Sa. Por tanto, el primer subfndice de 0oi 
ijs se refiere al numero del nodo, el segundo subfndice se refiere al estado del nodo y 
los subfndices restantes se refieren a la realizacion de So. Dado que los parametros 
estan asociados a probabilidades, han de satisfacer las igualdades 



Para cada i y s. Por tanto, uno de los parametros puede escribirse como uno menos 
la suma de los restantes. Por ejemplo, 



(7.31) 
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El conjunto de parametros 6a se denota por 0 a. 

La probabilidad de cualquier realizacion de las variables {xl ,...,xn} es un monomio en 
los parametros que definen el modelo probabilistico de grado menor o igual que el 
numero de variables. Sin embargo es un polinomio de primer grado en cada uno de 
los parametros. 

Demostracion: Se tiene que la probabilidad de una realizacion 

(xl ,..., xn ), es 

n n 

p(x = n 

.■ = 1 i = 1 


Observese que todos los parametros que intervienen en el producto anterior estan 
asociados a variables distintas. Por tanto p(x1,...,xn) es un monomio de grado menor 
o igual que el numero de variables. Observese tambien que p(x1,...,xn) puede 
resultar un polinomio si solo se considera el conjunto de parametros libres. Para ello 
solo se necesita reemplazar los parametros 0iri si por 

t’* — l 

QiriSt — 1 

3=0 



Esta substitution crea tantos monomios nuevos como 
p cardinalidad tenga la variable Xi, pero cada uno de los 
monomios resultantes sigue siendo de primer grado en 
cada uno de los parametros. El corolario siguiente 
determina la estructura algebraica de las probabilidades 
marginales asociadas a un modelo probabilistico. 

La probabilidad marginal de cualquier conjunto de nodos Y c X es un polinomio en 
los parametros que definen el modelo probabilistico de grado menor o igual que el 
numero de variables. Sin embargo, es un polinomio de primer grado en cada uno de 
los parametros. 
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El problema de la compatibilidad 

El analisis de la estructura parametrica de las probabilidades, introducido en la 
seccion anterior, permite resolver el problema de la compatibilidad de los modelos 
multifactorizados, es decir, permite obtener la familia de funciones de probabilidad 
compatible con el conjunto de factorizaciones dado en (7.29). Observese que 
siempre existe una solucion trivial para este problema, ya que el modelo de 
independencia total cumple todas las relaciones de independencia posibles 


Sin embargo, se esta interesado en obtener una funcion 
de probabilidad que cumpla las relaciones de 
independencia necesarias, pero que incluya el minimo 
numero posible de independencias adicionales. 

La idea del metodo propuesto por Castillo, Gutierrez y 
Hadi (1996b) es la de elegir una de las factorizaciones, 
por ejemplo PI, y designarla como la factorizacion de 
referenda de la funcion de probabilidad. Los parametros asociados, 01, tambien se 
denominan parametros de referencia. Una vez que la factorizacion de referencia ha 
sido fijada, el problema de la compatibilidad puede ser resuelto calculando las 
restricciones sobre los parametros de referencia para que la funcion de probabilidad 
pueda ser factorizada segun el resto de factorizaciones. 





Modelos normales multifactorizados 

El problema de compatibilidad asociado al conjunto de factorizaciones de un modelo 
normal multifactorizado se reduce al problema de encontrar la matriz de covarianzas 
de la variable aleatoria multidimensional que sea compatible con las factorizaciones 
dadas, o con las relaciones de independencia implicadas por ellas. De manera similar 
al caso de los modelos multinomiales multifactorizados, se pueden designar como 
parametros de referencia a los parametros asociados a la matriz de covarianzas de 
la primera factorizacion. 
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Independencia Condicional a traves de la Matriz de Precision: Sea X una variable 
aleatoria distribuida de forma normal y sea {V, Y, Z} una particion de X. 

Sea W = 1-1 la matriz de precision del modelo, es decir, la inversa de la matriz 
de covarianzas I. Entonces, se cumple I (V, Y |Z) si y solo si el bloque WVY de la 
matriz W es la matriz nula. El teorema siguiente muestra que, para variables 
aleatorias normales, los terminos dependencia y correlacion son equivalentes, asf 
como los terminos dependencia condicional y correlacion parcial. 


Modelos probabilfsticos definidos Condicionalmente 

En las secciones anteriores se han analizado los 
modelos multifactorizados, que permiten resolver el 
problema de compatibilidad de los modelos 
basados en multigrafos y los modelos basados 
en una lista de relaciones de independencia. En 
esta seccion se trata el problema de la definition de un modelo 


probabilfstico mediante un conjunto de funciones de probabilidad 
condicionada. Los modelos definidos de esta forma se denominan modelos 
probabilfsticos definidos condicionalmente. 



Modelos definidos condicionalmente: Considerese un conjunto de variables X = {XI 
,..., Xn }. Un modelo probabilfstico definido condicionalmente consiste en un 
conjunto de probabilidades marginales y condicionadas de la forma 

P = (p(ui |vi ); i = 1 m}, 

que define una unica funcion de probabilidad de X , donde Ui y Vi son 
subconjuntos disjuntos de X y Ui = cp. 
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Ledums < Recomendadas 



♦> SISTEMAS EXPERTOS V MODELOS DE REDES PROBABILISTICAS 

http://fismat.umich.mx/~hteieda/qutierim/BookCGH.pdf 


❖ SISTEMAS EXPERTOS PROBABILISTICOS 

http://es.slideshare.net/lcahuich/sistemas-expertosprobabilisticos-2a-parte 


Adividadesu TEjercicios 




En un documento en Word realice un informe academico sobre la 
construccion de modelos graficos y probabilisticos, haciendo entasis en 
generacion de graficos no dirigidos. 

Envfalo a traves de "Construccion de Modelos Graficos". 

En un documento en Word presente dos ejemplos de modelos de 
dependencia: grafoides y semigrafoides. 

Envfalo a traves de "Modelos de Dependencia". 
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1) Para comprobar si un grafo dirigido verifica una relacion de independencia 
dada, es necesario introducir : 

a. Un criterio de separation. 

b. Tres grafos continuos. 

c. Un grafo no dirigido. 

d. Un grafo no continuo. 

e. Dos o mas uniones de grafos. 

2) i,Cuantos modelos para definir relaciones de independencia condicional 
hay? 

a. 5. 

b. 2. 

c. 4 

d. 7 . 

e. 3 . 

3) Es un conjunto de relaciones de independencia que es cerrado con 
respecto a las propiedades de simetria, descomposicion, union debil, 
contraction e intersection. 

a. Un grafoide. 

b. Inter-operatibilidad. 

c. Exactitud. 

d. Seguridad de acceso. 

e. Fiabilidad. 

4) Un modelo de dependencia se denomina probabilistico si contiene 
dadas por una funcion de probabilidad conjunta. 

a. Accesos. 

b. Interoperatibilidad. 

c. Todas las relaciones de independencia seguridad. 

d. Exactitud. 

e. Fiabilidad. 

5) Los grafos son herramientas muy utiles para definir la estructura de 
de un modelo probabilistico. 

a. Discrecion. 

b. Indiscretion. 

c. independencia. 

d. Multi discrecion. 

e. Grafoide discreto. 
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6) Para representar relaciones de independencia condicional por medio de 
grafos no dirigidos se necesita definir de forma precisa: 

a. Algoritmo y su aplicacion. 

b. Un criterio de separation apropiado. 

c. Los caminos entre nodos. 

d. Dependencia de los nodos. 

e. Independencias asociadas de un grafo. 

7) La estructura general de una funcion de probabilidad conjunta involucra un 
excesivo numero de: 

a. Codigos. 

b. Variables. 

c. Simplificaciones. 

d. Parametros. 

e. Modelos. 

8) Cada modelo probabillstico tiene asociado un modelo de: 

a. Independencia. 

b. Variables. 

c. Parametros. 

d. Funciones. 

e. Dependencia. 

9) Las listas de independencias constituyen una alternativa a los modelos 
graficos para la construction de: 

a. Modelos probabilfsticos. 

b. Relaciones. 

c. Variables. 

d. Factorization. 

e. Independencia derivada. 

10) c,En que modelo se analiza el problema de representar modelos 
probabilfsticos para encontrar el grafo correspondiente a un modelo de 
dependencia probabillstico? 

a. Modelos de dependencia graficos no dirigidos. 

b. Modelos a grafos no dirigidos. 

c. Modelos de independencia graficos no dirigidos. 

d. Modelo de mapa de independencia. 

e. Modelo de mapa de dependencia. 
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Los grafos son herramientas muy potentes para describir de forma intuitiva las 
relaciones de dependencia e independencia existentes en un conjunto de variables. Por 
tanto, una forma de definir un modelo probabilistico es partir de un grafo que describa 
las relaciones existentes entre las variables. 


Para comprobar cuales, de entre todas las posibles relaciones de independencia 
condicional, son satisfechas por el grafo. Los criterios de separacion grafica son las 
reglas para entender como pueden codificarse dependencias e independencias en un 
grafo. Estos criterios dependen del tipo de grafo (dirigido o no dirigido) que se este 
considerando. 


En muchas situaciones practicas, las relaciones existentes entre un conjunto de 
variables pueden ser representadas por un grafo no dirigido G. cada variable puede ser 
representada por un nodo del grafo. Si dos variables son dependientes, esta relacion 
puede representarse por un camino que conecte estos nodos. Por otra parte, si dos 
variables son independientes, entonces no debera existir ningun camino que una estos 
nodos. De esta forma, el concepto de dependencia entre variables puede relacionarse 
con el concepto de conexion entre nodos. 


Para comprobar si un grafo dirigido verifica una relacion de independencia dada, es 
necesario introducir otro criterio de separacion. Hasta ahora se han introducido tres 
modelos distintos para definir relaciones de independencia condicional: modelos 
probabilfsticos, modelos graficos no dirigidos, y modelos graficos dirigidos. 
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a) Presentation y contextualizacion: 

Las redes Bayesianas son modelos graficos probabilfsticos utilizados en la toma 
de Decisiones. Una red Bayesiana representa una funcion de distribution conjunta 
Sobre un conjunto finito de variables. Muchas de las actividades en la ingenierfa 
del software, como por ejemplo, la estimation de costes o esfuerzo, evaluation de 
riesgos o fiabilidad tratan con valores inciertos o probabilfsticas. Por tanto, diversas 
tecnicas estadfsticas y la teorfa de la probabilidad han sido aplicadas a la 
ingenierfa del software desde sus inicios. 

b) Competencia: 

Explica la importancia del analisis y estudio de la propagacion exacta en 
diversas redes probabilfsticas. 

c) Capacidades: 

1 . Comprende las generalidades y aplicacion de la propagacion de evidencias. 

2. Conoce los principales metodos de propagacion aproximada, identificando las 
caracterfsticas que la representan. 

3. Reconoce la importancia de la propagacion simbolica de evidencia respecto al 
desarrollo de redes. 

4. Aplica las diversas teorfas de aprendizaje sobre las redes bayesianas en 
diversos sistemas expertos. 

d) Attitudes: 

S Muestra interes por el analisis sobre la propagacion exacta en diversas redes 
probabilfsticas. 

S Muestra entusiasmo en los diversos desarrollos de las teorfas respecto a la 
propagacion en redes. 

e) Presentation de Ideas basitas v tontenidos esentiales de la Unidad: 

La Unidad de Aprendizaje 04: Propagacion Exacta en Redes Probabilfsticas, 

comprende el desarrollo de los siguientes temas: 

TEMA 01 : Propagacion de Evidencia. 

TEMA 02: Metodos de Propagacion Aproximada. 

TEMA 03: Propagacion Simbolica de Evidencia. 

TEMA 04: Aprendizaje en Redes Bayesianas. 



propagation 

de Evidentia 


TEMAl 




Competencia: 

Comprender las generalidades y aplicacion 
de la propagation de evidencias. 





Uesarrolfo de los Terms 



Ti zm& 01: Propagacion d£ 0vid£neia 



Cuando se dispone de cierta evidencia, es decir, cuando se 
conoce un conjunto de variables EcX que tienen asociadas los 
valores Xi = ei, para Xi e E, el proceso de propagacion debe 
tener en cuenta estos valores para calcular las nuevas 
probabilidades de los nodos. 

Evidencia. Un subconjunto de variables EcX cuyos valores son conocidos, E = e, en 
una situacion dada, se conoce como conjunto de evidencia, o simplemente evidencia. 


En esta situacion, la propagacion de evidencia consiste en 
calcular las funciones de probabilidad condicionada p(xi |e) 
para cada variable Xi e E, dada la evidencia E = e. Estas 
funciones de probabilidad condicionada miden el efecto 
producido por la evidencia en cada variable. Cuando no se 
dispone de evidencia (E = cp), las funciones condicionadas p(xi |e) son simplemente 
las funciones de probabilidad marginal p(xi).Un forma de calcular las probabilidades 
p(xi |e) consiste en utilizar la formula que implica p(xi |e) = p(xi ,e) p(e) <x p(xi , e), 
donde 1/p(e) es una constante de proporcionalidad. Por tanto, se puede obtener p(xi 
|e), calculando y normalizando las probabilidades marginales p(xi , e). 
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De esta forma se tiene p(xi , e) = x\{xi ,e} pe (xl xn ), donde pe (xl xn ) es la ’* 
funcion de probabilidad obtenida sustituyendo en p(x1 xn ) las variables con 
evidencia, E, por sus valores e. Por tanto, para calcular p(xi , e), ha de sumarse pe 
(xl xn) para todas las posibles combinaciones de valores de las variables que no 
esten contenidas en E, excepto la variable Xi . 


Debido al elevado numero de combinaciones de valores que involucra, este metodo *• 
de “fuerza bruta” resulta altamente ineficiente, incluso en redes con un numero 
reducido de variables. Por ejemplo, en el caso de variables binarias, la ecuacion 
requiere la suma de 2n-1 probabilidades distintas. En la Figura 8.1 se muestra el 
tiempo de computacion necesario para calcular p(xi ) en un ordenador personal. Esta 
figura muestra que el tiempo de computacion crece de forma exponencial con el 
numero de variables del modelo, n. Puede observarse que este metodo es ineficiente 
incluso para modelos con solo unas decenas de variables. 


PROPAGAClbN EN POLlARBOLES 



El poliarbol es uno de los modelos graficos mas simples para construir redes 
Bayesianas. La caracterfstica principal de este algoritmo es que su complejidad es 
lineal en el tamano de la red (es decir en el numero de nodos y aristas que la 
componen), a diferencia del metodo de fuerza bruta que requiere un numero 
exponencial de operaciones para realizar la propagacion. 


Por ejemplo, el nodo D divide al poliarbol en dos * 
poliarboles inconexos, el primero de los cuales, {A, B, 
C}, incluye a sus padres y a los nodos que son 
accesibles desde D a traves de sus padres, y el 
segundo, {E, F, G}, que incluye a sus hijos y a los 
nodos que son accesibles desde D a traves de sus hijos. en la cual tambien puede 
comprobarse que el nodo D separa a estos dos conjuntos, es decir, que se verifica 
graficamente la relacion de independencia I ({A, B, C }, {E, F, G}|D). 
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I El proceso de propagacion puede realizarse en este tipo de grafos de un modo 

eficiente combinando la information procedente de los distintos subgrafos mediante 
el envfo de mensajes (calculos locales) de un subgrafo a otro. 
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Valores numericos de los mensajes y funciones calculados por el algoritmo de 
propagacion en poliarboles cuando no se dispone de evidencia. 
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PROPAGAClbN EN REDES MULTIPLEMENTE CONEXAS 

El metodo de propagacion en poliarboles descrito en la seccion anterior es valido 
solamente para redes de estructura simple (poliarboles), en las cuales existe un unico 
camino entre cada par de nodos. Por tanto, este tipo de redes carecen de 
generalidad y no son aplicables en numerosas situaciones practicas. En estos casos 
es necesario trabajar con grafos multiplemente conexos (grafos que contienen 
bucles) en los que pueden existir varios caminos entre dos nodos. Dos de los 
metodos de propagacion mas importantes para este tipo de redes son los 
denominados metodos de condicionamiento y metodo de agrupamiento. 


La idea fundamental del metodo de propagacion por condicionamiento es cortar los 
multiples caminos entre los nodos mediante la asignacion de valores a un conjunto 
reducido de variables contenidas en los bucles. De esta forma se tendra un poliarbol 
en el cual se podra aplicar el algoritmo de propagacion para poliarboles descrito en la 
seccion anterior. Por otra parte, el metodo de agrupamiento construye 
representaciones auxiliares, de estructura mas simple, uniendo conjuntos de nodos 
del grafo original (por ejemplo, un arbol de union). De esta forma se puede obtener 
un grafo con estructura de poliarbol en el que pueden aplicarse las mismas ideas 
descritas en la seccion anterior para propagar evidencia. 



Probabilidades marginales (iniciales) de los nodos (a) y probabilidades 
condicionadas (actualizadas), dada la evidencia D = 0 (b). 
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METODO DE CONDICIONAMIENTO 

En el caso de redes Bayesianas multiplemente conexas ya no se cumple la 
propiedad de que un nodo cualquiera separa el grafo en dos partes inconexas. Por 
tanto, algunas de las propiedades de independencia aplicadas en el algoritmo de 
propagacion en poliarboles no pueden ser aplicadas en esta situacion. 



FIGURA 8.16. Grafo multiplemente conexo 

La idea basica del algoritmo de condicionamiento es cortar estas vias alternativas de 
comunicacion contenidas en los bucles asignando un valor arbitrario a un conjunto de 
nodos. Este conjunto de nodos se suele denominar conjunto de corte (en ingl'es, 
cutset). Por ejemplo, el nodo D no separa al grafo de la Figura en dos partes 
inconexas, pero si se considera el conjunto de corte formado por el nodo C, 
entonces, el conjunto {C, D} separa a (A, B} de (E, F, G}, los subgrafos que contienen 
a los padres e hijos de D, respectivamente. Por tanto, se puede cortar el bucle 
contenido en el grafo considerando el nodo C como un nodo evidencial, es decir, 
asignandole un valor arbitrario. 


Esta idea de cortar los bucles para obtener un grafo de estructura mas simple puede 
ser Nevada a la practica utilizando el metodo denominado absorcion de evidencia. 
Este metodo muestra que la evidencia puede ser absorbida por el grafo cambiando 
su topologia. De forma mas precisa, si Xi es un nodo evidenciar, se pueden eliminar 
del grafo todas las aristas de la forma Xi — >■ Xj sustituyendo la funcion de probabilidad 
condicionada del nodo Xj , p(xj |nj ), por una funcion definida sobre un conjunto mas 
reducido de variables: 
pi (xj |nj \ xi) = p(xj |nj \ xi , Xi = ei ). 


132 






mientras que implica la topologfa del grafo al eliminar un 
conjunto de aristas. Observese que el conjunto flj \ Xi es el 


nuevo conjunto de padres del nodo Xj en el grafo modificado. 
Por ejemplo, si se asigna un valor arbitrario, C = c, al nodo C, 


Esta operation deja inalterado el modelo probabilfstico, 



es decir, si se convierte C en un nodo evidencial en el grafo de la Figura 8.16, 
entonces se puede absorber esta evidencia eliminando del grafo la arista C — ► F, 
obteniendo asi un nuevo grafo con estructura de poliarbol (ver Figura 8.17). 


Para mantener inalterada la funcion de probabilidad condicionada del conjunto de 
variables no evidenciales, p (y|C = c), se reemplaza la funcion de probabilidad p (f |c, 
d) por pi (f |d) = p(f |C = c, d), lo cual elimina la dependencia del nodo F respecto de 
la evidencia C. 


P 1 (f I d) = p(f | C=c, d) 


Absorcion de la evidencia C = c mediante la arista C — > F. 

Por tanto, utilizando el metodo de absorcion de evidencia se puede reducir un grafo 
multiplemente conexo a un poliarbol, asignando un valor arbitrario a los nodos de un 
conjunto de corte C = (Cl Cm }. 


METODOS DE AGRUPAMIENTO 



El algoritmo de propagacion en poliarboles y el algoritmo de 
condicionamiento introducidos en las secciones anteriores 
aprovechan la estructura particular de los grafos dirigidos para 


propagar la evidencia. Por tanto, estos algoritmos son solo 


aplicables a redes Bayesianas. En esta section se presenta un metodo de 
propagacion distinto, el metodo de agrupamiento que, a partir de las estructuras 
locales contenidas en el grafo, produce representaciones alternativas para propagar 
la evidencia. Por tanto, estos metodos no dependen del tipo de grafo y son aplicables 
tanto a redes de Markov, como a redes Bayesianas. 
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El metodo de agrupamiento, inicialmente desarrollado por Lauritzen y Spiegelhalter 
(1988), se basa en la construccion de subconjuntos de nodos (aglomerados) que 
capturen las estructuras locales del modelo probabilfstico asociado al grafo. De esta 
forma, el proceso de propagation de evidencia puede ser realizado calculando 
probabilidades locales (que dependen de un numero reducido de variables), evitando 
asi calcular probabilidades globales (que dependen de todas las variables), los 
conglomerados de un grafo son los subconjuntos que representan sus estructuras 
locales. 


Por tanto, en primer lugar, el algoritmo de agrupamiento calcula los conglomerados 
del grafo; a continuation obtiene las funciones de probabilidad condicionada de cada 
conglomerado calculando de forma iterativa varias funciones de probabilidad locales. 
Por ultimo, se obtiene la funcion de probabilidad condicionada de cada nodo 
marginalizando la funcion de probabilidad de cualquier conglomerado en el que este 
contenido. En esta section se presentan dos versiones de este algoritmo, una para 
redes de Markov y otra para redes Bayesianas. 


Eliminar de X los nodos evidenciales. Este proceso tambien implica modificar el 
conjunto de conglomerados y la representacion potencial. La nueva representacion 
potencial, (C *, 4^*), esta definida en X *, donde X * = X \ E, C * es el nuevo conjunto 
de conglomerados y T* son los nuevos potenciales, que contienen la evidencia, y 
que han sido obtenidos de la forma siguiente: Para cada conglomerado Ci contenido 
en C tal que Ci H E = cp, se incluye el conjunto Ci \ E en C * y se define Para el resto 
de los conglomerados que no contienen nodos evidenciales, no es necesario realizar 
ninguna medication en las representaciones potenciales correspondientes. Con ello, 
se tiene p(x*|e) <x ip*(ci ).i=1 


Por tanto, en ambos casos, se puede aplicar el metodo anterior para obtener la 
funcion de probabilidad condicionada de los nodos, dada la evidencia E = e. En el 
primer caso se continua con la misma estructura utilizan mas recursos de los 
necesarios. En el segundo caso, no se utilizan mas recursos de los necesarios, pero 
se necesita modificar la estructura. Por tanto, se requiere un consenso entre ambas 
opciones con objeto de elegir la mas adecuada en cada caso. 
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Algoritmo de Agrupamiento en Redes Bayesianas 

En la seccion anterior se presento el metodo de agrupamiento para propagar 

evidencia en redes de Markov. En esta seccion se presenta una adaptation 





FIGURA 8.26. Grafo dirigido aciclico multiplemente conexo. 


PROPAGACION EN ARBOLES DE CONGLOMERADOS 

El algoritmo de agrupamiento agrupa conjuntos de nodos con cierta estructura local 
creando una cadena de conglomerados para propagar evidencia. Algunas 
modificaciones de este metodo utilizan una representation grafica de la cadena de 
conglomerados (por ejemplo, un arbol de union) para propagar la evidencia de forma 
mas eficiente. El metodo de los universos de conocimiento desarrollado por Jensen, 
Olesen y Andersen Transforma el grafo multiplemente conexo en un arbol de 
conglomerados asociado al grafo original. 
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Metodos de 

propagacidn 

Aproximada 




Competencia: 

Conocer los principales metodos de 
propagation aproximada, identificando las 
caracteristicas que la representan. 
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T^ma 02: M^todos d£ Propagaeion 
flproximada 


BASE INTUITIVA DE LOS MfrODOS DE SIMULACION 

En esta seccion se ilustra un esquema general de simulacion mediante un sencillo 
ejemplo. Considerese una urna que contiene seis bolas numeradas {1,..., 6}. 
Supongase que se quiere realizar el siguiente experimento. Se selecciona una bola al 
azar de la urna, se apunta su numero, se devuelve a la urna, y se mezclan las bolas 
antes de proceder a extraer la bola siguiente. Este esquema de muestreo se 
denomina muestreo con reemplazamiento. Cada seleccion de una bola se llama una 
extraccion o un experimento. En este caso cada extraccion tiene seis posibles 
resultados, {1,..., 6}. 


Sea Xi el resultado (el numero de la bola) de la extraccion i-esima. 

Puesto que el muestreo se hace con reemplazamiento, las 
extracciones son independientes (el resultado de una 
extraccion no influye en el resultado de las demas). 
Claramente, Xi es una variable uniforme con funcion de 

probabilidad p(Xi = xi ) = 1/6, para xi = 1,..., 6 y i = 1 N , 

donde N es el numero de extracciones (el tamano de la muestra). Utilizando esta 
funcion de probabilidad conjunta, se pueden calcular las probabilidades exactas de 
ciertos sucesos tales como p(X1 = 1 ,..., Xn =1 ) 
p (numero de pares = numero de impares), etc. 



Estos calculos son faciles en este caso puesto que la 
distribucion es uniforme (hay exacta- mente una bola para cada 
uno de los numeros {1,..., 6}), las extracciones son identicas (se 
usa la misma urna), y el resultado de cada extraccion es 
independiente de los resultados de los demas (muestreamos con reemplazamiento). 
Los calculos de las probabilidades exactas son complicados y costosos cuando la 
distribucion no es uniforme (por ejemplo, se tiene distinto numero de bolas de 
diferentes tipos), las extracciones no son identicos (por ejemplo, se realiza un 
muestreo con diferentes numeros de bolas), y/o extracciones que no son 
independientes (por ejemplo, muestreo sin reemplazamiento). 
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En estas situaciones complicadas, se pueden calcular las probabilidades de ciertos 
sucesos de forma aproximada mediante tecnicas de simulacion. Se puede, por 
ejemplo, repetir un experimento N veces. Se obtiene lo que se llama una muestra de 
tamano N. Entonces, la probabilidad de un suceso puede aproximarse por el cociente 
entre el numero de veces que ocurre dicho suceso y el numero total de simulaciones 
N. Claramente, cuanto mayor es el tamano de la muestra mas aproximada sera la 
aproximacion. 



Simulando la extraccion de bolas con reemplazamiento de la Urna y mediante un dado. 

Que es mas facil lanzar el dado que extraer la bola de una urna, devolverla y mezclar 
las bolas antes de la extraccion siguiente. En otras palabras, si no es facil obtener 
muestras de la distribucion de la poblacion se debe elegir otra distribucion que resulte 
mas sencilla para la simulacion. se puede utilizar un dado para simular la extraccion 
de bolas de urnas con diferentes numeros de bolas? La respuesta, afortunadamente, 
es positiva. Por ejemplo, supongase que la urna contiene solo cinco bolas numeradas 
{1,..., 5} (Urna 2). Sea X el numero de bolas con el numero i sacadas al azar con 
reemplazamiento de la Urna 2. 


Entonces X es una variable aleatoria cuya funcion de probabilidad, p(x), se muestra 
en la Figura 9.2 (Urna 2). En este caso, la distribucion simulada (el dado) no es la 
misma que la distribucion de la poblacion (Urna 2), es decir, p(x) = h(x) (las columnas 
etiquetadas s(x) se explicaran en breve). A pesar del hecho de que la Urna 2 y el 
dado no tienen la misma distribucion, se puede todavfa utilizar el dado para simular la 
extraccion de bolas de la Urna 2, pero se tiene que corregir por el hecho de que las 
distribuciones de la poblacion y la simulada no coinciden. 
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Una forma de tener en cuenta esta diferencia es la siguiente: cuando en el dado sale 
un 6, se ignora la tirada y se repite de nuevo hasta que saiga un valor menor que 6, 
en cuyo caso se hace y igual al numero que saiga y se toma y como valor generado 
de la poblacion p(x). Este ejemplo es en realidad un caso especial del metodo 
conocido como metodo de aceptacion- rechazo. 


— 

El metodo de aceptacion - rechazo. Sea X una variable aleatoria con funcion de 

probabilidad p(x). Supongase que p(x) puede ser expresada como 
p(x) = c g(x) h(x), (9.2) 

donde c > 1, 0 < g(x) < 1 y h(x) es una funcion de probabilidad. Sea U una variable 
aleatoria uniforme U (0, 1) y sea Y una variable aleatoria con funcion de probabilidad 
h(y) independiente de U. Entonces, la funcion de probabilidad condicional de Y dado 
que u < g(y) coincide con la funcion de probabilidad de X. Por otra parte, la 
probabilidad de aceptar la muestra (eficiencia) es 1/c. 


Una ilustracion de un esquema general de simulacion. 

Por ejemplo, en el caso de la Urna 2 que se muestra en la Figura 9.2, se puede 
escribir p(x) = cg(x)h(x), donde p(x) y h(x) se muestran en la Figura 9.2, c = 6/5 y 0, si 
x = 6, g(x) = 

Por ello, utilizando el teorema anterior, se puede obtener una muestra de p(x) (Urna 
2) usando h(x) (el dado) y comprobando la condition u < g(x) para todo valor x que se 
simule de h(x), donde u es un numero obtenido de la distribution uniforme U (0, 1). 
Por tanto, en este caso, el suceso x = 6 siempre se rechaza, ya que g(6) = 0, y los 
restantes sucesos se aceptan siempre. 
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Competencia: 

Reconocer la importanda de la propagadon 
simbolica de evidencia respecto al desarrollo 
de redes. 
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© T^ma 03: propagation I>imb61iea d£ 

0vid£neia 


NOTACION V CONCEPTOS PRELIMINARES 

Se ha visto que la funcion de probabilidad conjunta asociada a las redes 
probabilfsticas de Markov descomponibles y Bayesianas puede darse mediante una 
factorizacion como producto de probabilidades condicionales 

n 

p{Xi ,...,x n )= p (Xj fci }. 

z=l 


En el caso de redes Bayesianas, los conjuntos condicionantes son los padres del 
nodo, m , i = 1,..., n. En el caso de redes de Markov descomponibles, estos conjuntos 
se obtienen aplicando la regia de la cadena a la factorizacion obtenida a partir de la 
cadena de conglomerados. Por tanto, aunque algunos de los metodos introducidos 
en este capitulo pueden ser facialmente extendidos para tratar una representacion 
potencial de la de probabilidad conjunta, por simplicidad, pero sin perdida de 
generalidad, se utiliza el conjunto de probabilidades condicionales en como 
representacion parametrica basica de la funcion de probabilidad conjunta. 



Sea X = {XI Xn } un conjunto de n variables 
discretas, cada una de las cuales puede tomar valores 
en el conjunto (0, 1,..., ri }, y sea B = (D, P ) una red 
Bayesiana definida sobre X , donde el grafo dirigido 
acnclico D determina la estructura del conjunto de 

probabilidades condicionales, y P = {p(x1 |tt1 ) p(xn Inn )} es el conjunto de 

probabilidades condicionales que se necesitan para especificar la funcion de 
probabilidad conjunta. Algunas de las probabilidades condicionales en (10.1) pueden 
darse en forma numerica y otras en forma simbolica, es decir, p(xi |TTi ) pueden ser 
familias parametricas o probabilidades totalmente especificadas numericamente. 
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Nodo Simbolico. Cuando p(xi |Tri ) es una familia parametrica simbolica (es decir, 
depende de al menos un parametro en forma simbolica), el nodo Xi se denomina un 
nodo simbolico, y se utiliza ©i para denotar sus correspondientes parametros 
simbolicos. Cuando p(xi |iri ) es una familia parametrica, es decir, cuando Xi es un 
nodo simbolico, una eleccion conveniente de los parametros es la siguiente 


dijTT = p {Xi =j/n z = a), j e *0, . . . , >-,/ 


Donde tt es cualquier posible realization de los padres, l"li , de Xi . Por ello, el primer 
subindice de 0iju se refiere al numero del nodo, el segundo subindice se riere al 
estado del nodo, y los restantes subindices se rieren a las realizaciones de sus 


padres. Puesto que /=c Qjj n = 1 j para todo / y TT, 


No todos los parametros son libres, es decir, uno cualquiera de ellos puede ser 
escrito como la unidad menos la suma del resto. Por ejemplo, el primer parametro 
puede escribirse como 



$/0tt 1 



■ Para implicar la notacion en los casos en los que la variable Xi no tiene padres, se 
utiliza 0ij para denotar pi (Xi = j), j e {0,..., ri }. Se ilustra esta notacion usando el 
ejemplo siguiente. 


Ejemplo de Nodos simbolicos. Considerese una red Bayesiana discreta consistente 
en las variables X = {XI ,..., X8 }, La estructura del grafo implica que la probabilidad 
conjunta del conjunto de nodos puede escribirse en la forma 
p(x) = p(x1 )p(x2 |x1 )p(x3 |x1 )p(x4 |x2 , x3 )p(x5 |x3 )p(x6 |x4 )p(x7 |x4 )p(x8 |x5 ). 

Por simplicidad, y sin perdida de generalidad, supongase que todos los nodos 
representan variables binarias con valores en el conjunto {0, 1}. Esto y la estructura 
de la distribution de probabilidad implica que la funcion de probabilidad conjunta de 
las ocho variables depende de 34 parametros 0 = {©ijn }. 
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Notese, sin embargo, que solamente 17 de ellos son libres (puesto que las 
probabilidades en cada una de las probabilidades condicionales deben sumar la 
unidad). Estos 17 parametros se dan en la Tabla. 



Un grafo dirigido aciclico. 




X 

n 

Parametros libres 

X 

9 

0io = p(X \ = 0) = 0.2 

X 

X 

0>oo =p(X 2 =0* = 0) = 0.3 

2 

l 

0201 =p(x 2 = 0 pr, = l) = 0.5 

X 

X 

0300 = p(X 3 = 0 /JEi = 0 ) 

3 

l 

0301 =p(X 3 = OjX\ = 1) = 0.5 

X 

X 2 , 

04000 = p{X i = OX 2 = 0, X 3 = 0) = 

4 

X* 

0.1 04001 = p(A 4 = OX 2 = 0,X 3 = 1) 



= 0.8 04010 = P(X 4 = OX 2 = 1, X 3 = 



0) = 0.3 04oii = p(X 4 = QX 2 = l X 3 

w X 

X 

0500 =p(x 5 =0* = 0 ) = 0.3 

5 

3 

0501 =P(X 5 = 0 X 3 = 1) = 0.1 

X 

X 

0600 = />(^45 = O/X 4 = 0) 

6 

4 

0601 =P(X 6 =0Xl = 1) = 0.9 

X 

X 

0700 =p(Jf 7 = 0 * = 0) = 0.3 

i 

4 

0701 =p(x 7 =0« = 1) = 0.6 

X 

X 

0800 =p(Jf s =0iX- 5 = 0) = 0.2 

8 

5 

0801 =p(Xg = 0 X 5 = 1) = 0.4 


TABLA de El conjunto de parametros libres asociados a las distribuciones 

condicionales. 
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En este ejemplo, solo los nodos X3 y X6 son nodos simbolicos puesto que sus 
correspondientes funciones de probabilidad condicionada contienen al menos un 
parametro simbolico. Se tienen los conjuntos de parametros 03 = {0300 , 0310 } y 06 
= {0600 , 0610 }. Notese que estos conjuntos incluyen todos los parametros 
simbolicos, no solo los parametros libres. Por ello, el conjunto de parametros 
simbolicos asociados a la red Bayesiana es 0 = {03, ©6}. 


GENERACION AUTOMATICA DE CbDIGO SIMBOLICO 

El tratamiento con parametros simbolicos es 
identico al tratamiento con valores numericos, 
con la unica diferencia de que las operaciones 
requeridas deben realizarse con un programa 
capaz de manipular simbolos en vez de 
numeros. Los calculos simbolicos, sin 
embargo, son mucho mas lentos que los 
numericos y requieren mas memoria. 


Sin embargo, este metodo de resolver el problema es muy costoso 
computacionalmente, y resulta ineficiente incluso con numeros reducidos de variables 
Una alternativa a este metodo consiste en adaptar algunos de los algoritmos de 
propagacion numerica muestran que la adaptacion simbolica de estos metodos 
requiere solo pequenas modificaciones. Por ejemplo, el algoritmo de propagacion 
por agrupamiento puede adaptarse facilmente a la propagacion simbolica utilizando 
una herramienta informatica simbolica, tal como Matematica. 
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Competencia: 

Aplicar las diversas teorias de aprendizaje 
sobre las redes bayesianas en diversos 
sistemas expertos. 
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0 T(3ma 04: flpr^ndizaj^ (zn ‘R^di^s Bayesianas 

MIDIENDO LA CALIDAD DE UNA RED BAVESIANA 

Una medida de calidad, Q(B|S, ^), es un criterio mediante el cual se puede ordenar el 
conjunto de todas las redes Bayesianas posibles por su calidad, donde B es una red 
■ Bayesiana, ^ la informacion “a priori”, y S un conjunto de datos. Por ello, dada la 
informacion “a priori” ^ y/o un conjunto de datos S, nuestro objetivo consiste en 
obtener una red Bayesiana de alta calidad. Una medida de calidad debe satisfacer 
algunas propiedades deseables. Por ejemplo, debe asignarse la misma calidad a las 
redes que conduzcan a la misma estructura de independencia. 

A continuation se define esta importante propiedad. ^ 


Equivalence en Peso: 

Dado un conjunto de datos S, una medida de calidad Q(B|S, se dice que es 
equivalente en peso si asigna el mismo valor a todo par de redes Bayesianas 
equivalentes B1 y B2 , es decir, si Q(B1 |S, = Q(B2 |S, ^). 

Otras propiedades de las medidas de calidad son: 

• A las redes recomendadas por los expertos se les debe asignar calidades mas 
altas que a las rechazadas por ellos. 

• Las representaciones perfectas deben recibir calidades mayores que las 
imperfectas. 

• Las I -representaciones minimas deben recibir calidades mayores que las no 
rmnimas. 


• Las redes con reducido numero de parametros a igualdad del 
resto de propiedades deben recibir calidades mayores que las 
de elevado numero de parametros. 

• A las redes que confirmen la informacion contenida en los 
datos debe asignarsele una calidad mayor que a aquellas que 
contradigan a estos. 

Para ampliar conocimientos sobre estas y otras propiedades se remite al lector a 
consultar el trabajo de Bouckaert (1995). 
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Las medidas de calidad dependen de la incertidumbre de la informacion disponible. 

Dos posibles situaciones son: 

1. Una situacion en la que las estructuras probabilfsticas y graficas estan ambas 
sometidas a incertidumbre. En este caso, se dispone de la informacion “a priori” ^ 
y el conjunto de datos S, y el objetivo consiste en encontrar la mejor red 
Bayesiana B(0) = (D, P (0)) usando algun criterio de calidad. Notese que ^ 
contiene informacion “a priori” referente a ambas estructuras, la grafica y la 
parametrica. Dados y S, la calidad de una red Bayesiana B(0) depende de la 
calidad de sus subcomponentes, D y P (0). Se usa: 

Q (B(0)|S, t) o Q(D, P (0)|S, 5). 


— 

Para denotar la medida de calidad de la red Bayesiana 
en su totalidad y para indicar que la medida depende de 
S y Sin embargo, en algunos casos se puede estar 
interesado solo en el aprendizaje estructural. En tales 
casos, se puede obtener una medida de la calidad de la 
estructura grafica maximizando la calidad de sus redes 
Bayesianas Q(B(0)|S, £) con respecto a 0, es decir, 

Q(D|S, £) = Q(D, P (0~)|S, £), Donde 0“ es el valor de 0 que maximiza Q(D, P 
(0)|S, 5). Alternativamente, se puede usar cualquier otra estimacion de 0, tal 
como la estimacion de maxima verosimilitud, una estimacion Bayesiana, etc. 



2. Una situacion en la que la estructura grafica D 
es conocida y solo la estructura probabilfstica 
esta sometida a incertidumbre. En este caso, 
se esta interesado solo en el aprendizaje 
parametrico, y el objetivo consiste en encontrar 
la mejor estructura probabilfstica P (0), utilizando algun criterio de calidad. Dados 
S, D y tj, la calidad de P (0) depende de la calidad de los parametros estimados. 
Se usa Q(P (0)|D, S, £) para denotar la medida de calidad de la estructura 
probabilfstica de la red Bayesiana y para enfatizar que esta' condicionada a D, 
S, y tj. Notese que solo contiene informacion “a priori” sobre la estructura 
parametrica ya que se conoce con certeza la estructura trafico. 
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Algunas medidas de calidad se definen como la suma de tres terminos o 
componentes: Q = f (informacion “a priori”) + g(datos disponibles) + 
h(complejidad), donde f (.), g(.) y h(.) Son funciones conocidas. El significado de 
estos terminos se explica a continuation: 


1. La informacion “a priori”: La funcion f (informacion “a priori”) a- signa una 
probabilidad alta a las redes que han sido indicadas como altamente probables 
por la informacion “a priori” y una probabilidad baja a las que han sido indicadas 
como poco probables. Cuanto mayor sea la contribucion de este termino a la 
medida de calidad, mayor sera el peso del conocimiento “a priori” frente al 
aportado por los datos. Este termino contribuye decisivamente a la calidad de la 
red en estudio cuando no existen datos disponibles o son muy reducidos, pero 
es despreciable cuando los datos disponibles son abundantes. 


Una election tipica para este termino es log p(B), 
donde p(B) = p(D, 0) es la probabilidad “a priori” 
asignada a la red B, donde 0 se usa en vez de P 
para mostrar la dependencia explicita de P del 
parametro 0. Si no hay conocimiento “a priori” 
disponible, este termino se sustituye por cero, lo que es equivalente a suponer 
% que p(B) es una distribution uniforme. 



2. Los datos disponibles: La funcion g(datos disponibles) es un termino de 
bondad de ajuste que mide lo bien o mal que una red Bayesiana reproduce los 
datos S. Da una alta calidad a las redes que estan de acuerdo con los datos y 
una baja calidad a las que los contradicen. La contribucion de este termino 
aumenta cuando se anaden aristas a la red. En tal caso se tienen mas 
parametros o grados de libertad y, normalmente, se puede obtener un mejor 
ajuste a los datos. 

Algunas elecciones tipicas para este termino son las siguientes: 

(a) El logaritmo de la verosimilitud de los datos: log p (S|D, 0). 

(b) El logaritmo de la probabilidad “a posteriori” de 0 dada la estructura D y los 

datos S: log p(0 | S, D). 
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3. La complejidad: La funcion h (complejidad) penaliza las redes con estructura 
compleja (por ejemplo, redes con un gran numero de aristas y/o un numero 
alto de parametros). Por ello, la funcion h() conduce a una calidad alta para 
las redes simples con un numero reducido de aristas y parametros, y a una 
baja calidad para las redes con muchas aristas y/o parametros. 

Para medir la complejidad de una red Bayesiana es importante conocer su 
dimension. Dimension de una red Bayesiana. Sea X un conjunto de variables 
y B = (D, P) una red Bayesiana definida sobre X. La dimension de esta red 
Bayesiana, Dim(B), se define como el numero de parametros necesarios para 
especifican su funcion de probabilidad conjunta asociada. 





Ledums < Recomendadas 



❖ curso bAsico de sistemas expertos 

http://luisauillermo.com/cbse.pdf 


❖ SISTEMAS EXPERTOS V MODELOS DE REDES PROBABILISTICAS 

http://fismat.umich.mx/~hteieda/qutierim/BookCGH.pdf 

❖ CONSTRUCCION DE MODELOS PROBABILfSTICOS 

http://www.cs.us.es/cursos/iic-201 0/Archivos/IIC%20-%20Teoria1 0 v03.pdf 


Adividadesu TEjerckios 




En un documento en Word presente dos ejemplos sobre los metodos (M.) 
de propagacion (P.) aproximada (A.) en sistemas (S.) expertos (E.). 

Envfalo a traves de "M. P. A. S. E.". 

En un documento en Word elabore un informe academico sobre la 
propagacion simbolica de evidencia. 

Envfalo a traves de "Propagacion Simbolica". 
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1) Un subconjunto de variables cuyos valores son conocidos, en una situacion 
dada, se conoce como: 

a. Conjunto de variables. 

b. Evidencia almacenada. 

c. Conjunto de evidencia. 

d. Evidencia inteligente. 

e. Evidencias asociadas. 

2) El metodo de propagacion en poli arboles es valido solamente para redes de 
estructura: 

a. Variable. 

b. Compuesta. 

c. Asociada. 

d. Simple. 

e. Multiple. 

3) Dos de los metodos de propagacion mas importantes para este tipo de redes 
multiplemente conexas son los denominados metodos de: 

a. Condicionamiento y agrupamiento. 

b. Consistencia y contingencia. 

c. Agrupamiento y consistencia. 

d. Condicionamiento y contingencia. 

e. Agrupamiento y consolidacion. 

4) No todos los parametros son libres, es decir, uno cualquiera de ellos puede 
ser escrito como: 

a. La unidad mas la suma del resto. 

b. La unidad por la suma del resto. 

c. La unidad entre la suma del resto. 

d. El total menos la suma del resto. 

e. La unidad menos la suma del resto. 

5) El tratamiento con parametros simbolicos es identico al tratamiento con 
valores numericos, con la unica diferencia de que las operaciones requeridas 
deben realizarse con un programa capaz de manipular simbolos en vez de 
numeros. 

a. Generacion automatica de codigo configurado. 

b. Generacion automatica de codigo simbolico. 

c. Generacion automatica de codigo numerico. 

d. Generacion automatica de codigo automatico. 

e. Generacion automatica de codigo modificado. 
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6) Una medida de calidad, Q(B|S, §), es un criterio mediante el cual se puede 

, donde B es una red Bayesiana, 5 la 

informacion “a priori”, y S un conjunto de datos. 

a. Modificar el conjunto de todas las redes Bayesianas posibles por su calidad. 

b. Evaluar el conjunto de todas las redes Bayesianas posibles por su calidad. 

c. Codificar el conjunto de todas las redes Bayesianas posibles por su calidad. 

d. Ordenar el conjunto de todas las redes Bayesianas posibles por su calidad. 

e. Transformar el conjunto de todas las redes Bayesianas posibles por su calidad. 

7) Dado un conjunto de datos S, una medida de calidad Q(B|S, £) se dice que es 
equivalente en peso si asigna el mismo valor a todo par de redes Bayesianas 
equivalentes B1 y B2 , es decir, si Q(B1 |S, £) = Q(B2 |S, £). 

a. Equivalencia en producto. 

b. Equivalencia en peso. 

c. Equivalencia en masa. 

d. Equivalencia en codigos. 

e. Equivalencia en recursos. 

8) Una medida de calidad debe . Por ejemplo, debe asignarse 

que conduzcan a la misma estructura de independencia. 

a. Promover algunas propiedades deseables - la misma calidad a las redes. 

b. Satisfacer algunas propiedades deseables - la misma calidad a las redes. 

c. Evaluar algunas propiedades deseables - la misma calidad a las redes. 

d. Reconocer algunas propiedades deseables - la misma calidad a las redes. 

e. Dirigir algunas propiedades deseables - la misma calidad a las redes. 

9) Es importante la propagacion de evidencia porque: 

a. Permite obtener conclusiones cuando se dispone de nueva informacion. 

b. Permite obtener direcciones cuando se dispone de nueva informacion. 

c. Permite obtener evaluaciones cuando se dispone de nueva informacion. 

d. Permite obtener deducciones cuando se dispone de nueva informacion. 

e. Permite obtener comprobaciones cuando se dispone de nueva informacion. 

10) Cuando no existe evidencia el proceso de propagacion consiste en: 

a. Permitir transacciones bancarias. 

b. Calcular las probabilidades marginales. 

c. Continuar con problemas de probabilidad. 

d. Medir las probabilidades. 

e. Permitir problemas de errores. 
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UNIDAD DE APRENDIZAJE IV: 






La propagacion de evidencia es una de las tareas mas importantes de un sistema 
experto, pues permite obtener conclusiones cuando se dispone de nueva informacion. 
Cuando no se dispone de ninguna informacion, es decir, cuando no existe evidencia, el 
proceso de propagacion consiste en calcular las probabilidades marginales 


Estas probabilidades proporcionan informacion “a priori” sobre los distintos valores que 
pueden tomar las variables, Cuando se dispone de cierta evidencia, es decir, cuando se 
conoce un conjunto de variables que tienen asociadas los valores el proceso de 
propagacion debe tener en cuenta estos valores para calcular las nuevas probabilidades 
de los nodos. 


El poliarbol es uno de los modelos graficos mas simples para construir redes 
Bayesianas. En esta seccion se presenta un algoritmo de propagacion para este tipo de 
modelos probabilisticos la caracteristica principal de este algoritmo es que su 
complejidad es lineal en el tamano de la red (es decir en el numero de nodos y aristas 
que la componen), a diferencia del metodo de fuerza bruta que requiere un numero 
exponencial de operaciones para realizar la propagacion. 


El metodo de propagacion en poliarboles descrito en la seccion anterior es valido 
solamente para redes de estructura simple (poli arboles), en las cuales existe un unico 
camino entre cada par de nodos. Dos de los metodos de propagacion mas importantes 
para este tipo de redes son los denominados metodos de condicionamiento y metodo 
de agrupamiento. 
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♦♦♦ ARQUITECTURA: Consiste en la estructura organizacional de un sistema. 

♦♦♦ ATRIBUTO: Es una parte especifica de una clase. Una propiedad de un tipo 
identificada mediante un nombre. 

♦♦♦ EJTADO: Es una condicion o situacion en la vida de un objeto, durante la cual 
satisface una condicion, realiza una actividad o esta esperando un evento. 

♦♦♦ ESTADO ACTIVO: Es un estado con una accion interna y una o mas transiciones 
asociadas a la finalizacion de la accion interna. 

ESTADO COMPUESTO: Es un estado compuesto por subestados. 

♦♦♦ EVENTO: En el contexto de un diagrama de estado, un evento es un 
acontecimiento que puede disparar una transition de estados. 

♦♦♦ EVENTO TEMPORAL: Es un evento que ocurre en un tiempo particular. Puede ser 
especificado por medio de una expresion temporal. 

❖ MAQUINA DE ESTADOS FINITOS (MEF): Es un modelo que describe los aspectos 
de control en los sistemas de information. 

META-METAMODELO: Es un modelo que define el lenguaje para expresar el 
metamodelo. La relacion entre meta-metamodelo y metamodelo es analoga a la 
relacion entre metamodelo y modelo. 

METAMODELO: Es un modelo que define el lenguaje para poder expresar un 
modelo. 

♦♦♦ MODELO: Es una abstraction semanticamente consistente de un sistema. 

♦♦♦ MSC: Es un lenguaje grafico orientado a objetos que se usa para describir 
escenarios, es decir, ejecuciones concretas del sistema. 

♦♦♦ REDES DE PETRI: Es un formalismo grafico que permite especificar sistemas 
asincronicos. 

SUBESTADO: Es un estado que es parte de un estado compuesto. Un subestado 
puede ser concurrente o disjunto. 

♦♦♦ SDL: Permite expresar mediante maquinas de estados el funcionamiento de las 
clases del sistema. 

♦♦♦ SUBESTADO CONCURRENTE: Es un subestado que puede tener cabida 
simultaneamente a otros subestados concurrentes en el mismo estado 
compuesto. 

♦♦♦ TIEMPO: Es un valor que representa un momento en el tiempo, absoluto o relativo. 

❖ UML "UNIFIED MODELING LANGUAGE": Es un lenguaje que permite especificar, 
construir, visualizar y documentar los elementos que componen un sistema de 
software intensivo. 
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